{
  "best_metric": 0.12199707,
  "best_model_checkpoint": "/data1/tzz/VQA/ckpt/llava_next_video/v2-20250226-080739/checkpoint-185",
  "epoch": 0.9966329966329966,
  "eval_steps": 500,
  "global_step": 185,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0053872053872053875,
      "grad_norm": 14.159545000064247,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 31.90625,
      "memory(GiB)": 22.53,
      "step": 1,
      "train_speed(iter/s)": 0.022985
    },
    {
      "epoch": 0.010774410774410775,
      "grad_norm": 14.616283963493206,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 31.5234375,
      "memory(GiB)": 22.53,
      "step": 2,
      "train_speed(iter/s)": 0.028711
    },
    {
      "epoch": 0.01616161616161616,
      "grad_norm": 13.121864716464238,
      "learning_rate": 3e-06,
      "loss": 33.6796875,
      "memory(GiB)": 22.53,
      "step": 3,
      "train_speed(iter/s)": 0.031289
    },
    {
      "epoch": 0.02154882154882155,
      "grad_norm": 11.258740067609244,
      "learning_rate": 4.000000000000001e-06,
      "loss": 31.8203125,
      "memory(GiB)": 22.53,
      "step": 4,
      "train_speed(iter/s)": 0.032739
    },
    {
      "epoch": 0.026936026936026935,
      "grad_norm": 13.170936715126654,
      "learning_rate": 5e-06,
      "loss": 29.2109375,
      "memory(GiB)": 22.55,
      "step": 5,
      "train_speed(iter/s)": 0.033213
    },
    {
      "epoch": 0.03232323232323232,
      "grad_norm": 14.330929445232412,
      "learning_rate": 6e-06,
      "loss": 28.078125,
      "memory(GiB)": 22.55,
      "step": 6,
      "train_speed(iter/s)": 0.033152
    },
    {
      "epoch": 0.03771043771043771,
      "grad_norm": 13.548506738998086,
      "learning_rate": 7e-06,
      "loss": 27.5078125,
      "memory(GiB)": 22.55,
      "step": 7,
      "train_speed(iter/s)": 0.033486
    },
    {
      "epoch": 0.0430976430976431,
      "grad_norm": 8.666929263748118,
      "learning_rate": 8.000000000000001e-06,
      "loss": 24.9609375,
      "memory(GiB)": 22.56,
      "step": 8,
      "train_speed(iter/s)": 0.033686
    },
    {
      "epoch": 0.048484848484848485,
      "grad_norm": 11.066925048714,
      "learning_rate": 9e-06,
      "loss": 19.890625,
      "memory(GiB)": 22.57,
      "step": 9,
      "train_speed(iter/s)": 0.0337
    },
    {
      "epoch": 0.05387205387205387,
      "grad_norm": 8.973276554829988,
      "learning_rate": 1e-05,
      "loss": 14.328125,
      "memory(GiB)": 22.58,
      "step": 10,
      "train_speed(iter/s)": 0.03368
    },
    {
      "epoch": 0.05925925925925926,
      "grad_norm": 4.92025256078084,
      "learning_rate": 9.999194339645292e-06,
      "loss": 11.275390625,
      "memory(GiB)": 22.58,
      "step": 11,
      "train_speed(iter/s)": 0.033773
    },
    {
      "epoch": 0.06464646464646465,
      "grad_norm": 2.5239985209180706,
      "learning_rate": 9.996777618216608e-06,
      "loss": 9.6875,
      "memory(GiB)": 22.58,
      "step": 12,
      "train_speed(iter/s)": 0.034222
    },
    {
      "epoch": 0.07003367003367003,
      "grad_norm": 3.3965201854332046,
      "learning_rate": 9.992750614536606e-06,
      "loss": 7.869140625,
      "memory(GiB)": 22.58,
      "step": 13,
      "train_speed(iter/s)": 0.034559
    },
    {
      "epoch": 0.07542087542087542,
      "grad_norm": 3.83999730322345,
      "learning_rate": 9.987114626364172e-06,
      "loss": 7.22265625,
      "memory(GiB)": 22.58,
      "step": 14,
      "train_speed(iter/s)": 0.034521
    },
    {
      "epoch": 0.08080808080808081,
      "grad_norm": 4.824626769554233,
      "learning_rate": 9.979871469976197e-06,
      "loss": 7.0576171875,
      "memory(GiB)": 22.58,
      "step": 15,
      "train_speed(iter/s)": 0.03441
    },
    {
      "epoch": 0.0861952861952862,
      "grad_norm": 3.043760096951554,
      "learning_rate": 9.971023479582258e-06,
      "loss": 5.4990234375,
      "memory(GiB)": 22.58,
      "step": 16,
      "train_speed(iter/s)": 0.034356
    },
    {
      "epoch": 0.09158249158249158,
      "grad_norm": 1.3971212531371173,
      "learning_rate": 9.960573506572391e-06,
      "loss": 4.044921875,
      "memory(GiB)": 22.58,
      "step": 17,
      "train_speed(iter/s)": 0.03432
    },
    {
      "epoch": 0.09696969696969697,
      "grad_norm": 1.5367962214559587,
      "learning_rate": 9.948524918598175e-06,
      "loss": 3.44189453125,
      "memory(GiB)": 22.58,
      "step": 18,
      "train_speed(iter/s)": 0.034225
    },
    {
      "epoch": 0.10235690235690235,
      "grad_norm": 1.2329087385122603,
      "learning_rate": 9.934881598487478e-06,
      "loss": 3.4072265625,
      "memory(GiB)": 22.58,
      "step": 19,
      "train_speed(iter/s)": 0.034123
    },
    {
      "epoch": 0.10774410774410774,
      "grad_norm": 0.8648810367159049,
      "learning_rate": 9.91964794299315e-06,
      "loss": 3.0048828125,
      "memory(GiB)": 22.58,
      "step": 20,
      "train_speed(iter/s)": 0.03406
    },
    {
      "epoch": 0.11313131313131314,
      "grad_norm": 1.1333084548737522,
      "learning_rate": 9.902828861376101e-06,
      "loss": 2.973876953125,
      "memory(GiB)": 22.58,
      "step": 21,
      "train_speed(iter/s)": 0.03407
    },
    {
      "epoch": 0.11851851851851852,
      "grad_norm": 1.67328747436259,
      "learning_rate": 9.884429773823238e-06,
      "loss": 2.460693359375,
      "memory(GiB)": 22.58,
      "step": 22,
      "train_speed(iter/s)": 0.033985
    },
    {
      "epoch": 0.12390572390572391,
      "grad_norm": 0.8370283899907709,
      "learning_rate": 9.864456609700726e-06,
      "loss": 2.162109375,
      "memory(GiB)": 22.58,
      "step": 23,
      "train_speed(iter/s)": 0.033817
    },
    {
      "epoch": 0.1292929292929293,
      "grad_norm": 0.7984037408374535,
      "learning_rate": 9.842915805643156e-06,
      "loss": 2.711669921875,
      "memory(GiB)": 22.58,
      "step": 24,
      "train_speed(iter/s)": 0.033701
    },
    {
      "epoch": 0.13468013468013468,
      "grad_norm": 0.5877571918682093,
      "learning_rate": 9.819814303479268e-06,
      "loss": 1.707275390625,
      "memory(GiB)": 22.58,
      "step": 25,
      "train_speed(iter/s)": 0.033872
    },
    {
      "epoch": 0.14006734006734006,
      "grad_norm": 1.4800629465642858,
      "learning_rate": 9.79515954799483e-06,
      "loss": 2.813720703125,
      "memory(GiB)": 22.58,
      "step": 26,
      "train_speed(iter/s)": 0.034031
    },
    {
      "epoch": 0.14545454545454545,
      "grad_norm": 2.1222533390916443,
      "learning_rate": 9.768959484533461e-06,
      "loss": 3.59912109375,
      "memory(GiB)": 22.58,
      "step": 27,
      "train_speed(iter/s)": 0.034169
    },
    {
      "epoch": 0.15084175084175083,
      "grad_norm": 0.8369490081884605,
      "learning_rate": 9.741222556436132e-06,
      "loss": 1.89404296875,
      "memory(GiB)": 22.58,
      "step": 28,
      "train_speed(iter/s)": 0.034295
    },
    {
      "epoch": 0.15622895622895622,
      "grad_norm": 0.5854633514891076,
      "learning_rate": 9.711957702320176e-06,
      "loss": 1.986328125,
      "memory(GiB)": 22.58,
      "step": 29,
      "train_speed(iter/s)": 0.034448
    },
    {
      "epoch": 0.16161616161616163,
      "grad_norm": 0.35782476089852655,
      "learning_rate": 9.681174353198687e-06,
      "loss": 2.087890625,
      "memory(GiB)": 22.58,
      "step": 30,
      "train_speed(iter/s)": 0.034568
    },
    {
      "epoch": 0.16700336700336701,
      "grad_norm": 0.7861618699933016,
      "learning_rate": 9.648882429441258e-06,
      "loss": 2.669921875,
      "memory(GiB)": 22.58,
      "step": 31,
      "train_speed(iter/s)": 0.034675
    },
    {
      "epoch": 0.1723905723905724,
      "grad_norm": 0.536791680824106,
      "learning_rate": 9.615092337576987e-06,
      "loss": 2.203125,
      "memory(GiB)": 22.58,
      "step": 32,
      "train_speed(iter/s)": 0.034758
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 1.3726808261834198,
      "learning_rate": 9.579814966940833e-06,
      "loss": 2.114501953125,
      "memory(GiB)": 22.58,
      "step": 33,
      "train_speed(iter/s)": 0.034839
    },
    {
      "epoch": 0.18316498316498317,
      "grad_norm": 0.8535138723050261,
      "learning_rate": 9.543061686164374e-06,
      "loss": 2.1591796875,
      "memory(GiB)": 22.58,
      "step": 34,
      "train_speed(iter/s)": 0.034969
    },
    {
      "epoch": 0.18855218855218855,
      "grad_norm": 0.6726334477065563,
      "learning_rate": 9.504844339512096e-06,
      "loss": 2.35791015625,
      "memory(GiB)": 22.58,
      "step": 35,
      "train_speed(iter/s)": 0.035076
    },
    {
      "epoch": 0.19393939393939394,
      "grad_norm": 0.7227226956981251,
      "learning_rate": 9.465175243064428e-06,
      "loss": 2.400390625,
      "memory(GiB)": 22.58,
      "step": 36,
      "train_speed(iter/s)": 0.035195
    },
    {
      "epoch": 0.19932659932659932,
      "grad_norm": 0.7075241914063357,
      "learning_rate": 9.424067180748692e-06,
      "loss": 1.476318359375,
      "memory(GiB)": 22.58,
      "step": 37,
      "train_speed(iter/s)": 0.035278
    },
    {
      "epoch": 0.2047138047138047,
      "grad_norm": 0.8285808812880359,
      "learning_rate": 9.381533400219319e-06,
      "loss": 2.50634765625,
      "memory(GiB)": 22.58,
      "step": 38,
      "train_speed(iter/s)": 0.035354
    },
    {
      "epoch": 0.2101010101010101,
      "grad_norm": 0.747109858212397,
      "learning_rate": 9.337587608588588e-06,
      "loss": 2.397216796875,
      "memory(GiB)": 22.58,
      "step": 39,
      "train_speed(iter/s)": 0.035434
    },
    {
      "epoch": 0.21548821548821548,
      "grad_norm": 0.8997236382866319,
      "learning_rate": 9.292243968009332e-06,
      "loss": 2.3466796875,
      "memory(GiB)": 22.58,
      "step": 40,
      "train_speed(iter/s)": 0.035447
    },
    {
      "epoch": 0.22087542087542086,
      "grad_norm": 0.3854506877674985,
      "learning_rate": 9.24551709111097e-06,
      "loss": 1.607421875,
      "memory(GiB)": 22.58,
      "step": 41,
      "train_speed(iter/s)": 0.035398
    },
    {
      "epoch": 0.22626262626262628,
      "grad_norm": 0.4259732475000951,
      "learning_rate": 9.197422036290386e-06,
      "loss": 1.921630859375,
      "memory(GiB)": 22.58,
      "step": 42,
      "train_speed(iter/s)": 0.035349
    },
    {
      "epoch": 0.23164983164983166,
      "grad_norm": 0.46150408574103824,
      "learning_rate": 9.147974302859158e-06,
      "loss": 1.41650390625,
      "memory(GiB)": 22.58,
      "step": 43,
      "train_speed(iter/s)": 0.035321
    },
    {
      "epoch": 0.23703703703703705,
      "grad_norm": 0.5918291232050616,
      "learning_rate": 9.09718982604866e-06,
      "loss": 1.58154296875,
      "memory(GiB)": 22.58,
      "step": 44,
      "train_speed(iter/s)": 0.03529
    },
    {
      "epoch": 0.24242424242424243,
      "grad_norm": 1.1984794966626473,
      "learning_rate": 9.045084971874738e-06,
      "loss": 2.67236328125,
      "memory(GiB)": 22.58,
      "step": 45,
      "train_speed(iter/s)": 0.035244
    },
    {
      "epoch": 0.24781144781144782,
      "grad_norm": 0.7304425352094286,
      "learning_rate": 8.991676531863507e-06,
      "loss": 1.993408203125,
      "memory(GiB)": 22.58,
      "step": 46,
      "train_speed(iter/s)": 0.0352
    },
    {
      "epoch": 0.2531986531986532,
      "grad_norm": 0.8247667804924503,
      "learning_rate": 8.936981717640061e-06,
      "loss": 2.8740234375,
      "memory(GiB)": 22.58,
      "step": 47,
      "train_speed(iter/s)": 0.035111
    },
    {
      "epoch": 0.2585858585858586,
      "grad_norm": 1.072788633508109,
      "learning_rate": 8.881018155381766e-06,
      "loss": 1.845458984375,
      "memory(GiB)": 22.58,
      "step": 48,
      "train_speed(iter/s)": 0.035139
    },
    {
      "epoch": 0.26397306397306397,
      "grad_norm": 0.6949566674892941,
      "learning_rate": 8.823803880137993e-06,
      "loss": 2.345458984375,
      "memory(GiB)": 22.58,
      "step": 49,
      "train_speed(iter/s)": 0.035224
    },
    {
      "epoch": 0.26936026936026936,
      "grad_norm": 0.3214051528089464,
      "learning_rate": 8.765357330018056e-06,
      "loss": 1.640869140625,
      "memory(GiB)": 22.58,
      "step": 50,
      "train_speed(iter/s)": 0.035311
    },
    {
      "epoch": 0.27474747474747474,
      "grad_norm": 0.8127331172569063,
      "learning_rate": 8.705697340249275e-06,
      "loss": 2.334716796875,
      "memory(GiB)": 22.58,
      "step": 51,
      "train_speed(iter/s)": 0.035368
    },
    {
      "epoch": 0.2801346801346801,
      "grad_norm": 0.6993353179443554,
      "learning_rate": 8.644843137107058e-06,
      "loss": 2.2666015625,
      "memory(GiB)": 22.58,
      "step": 52,
      "train_speed(iter/s)": 0.03541
    },
    {
      "epoch": 0.2855218855218855,
      "grad_norm": 0.7930646229400613,
      "learning_rate": 8.582814331718961e-06,
      "loss": 1.73876953125,
      "memory(GiB)": 22.58,
      "step": 53,
      "train_speed(iter/s)": 0.035443
    },
    {
      "epoch": 0.2909090909090909,
      "grad_norm": 0.47348696234661886,
      "learning_rate": 8.519630913744726e-06,
      "loss": 1.8544921875,
      "memory(GiB)": 22.58,
      "step": 54,
      "train_speed(iter/s)": 0.035485
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.5105789152298116,
      "learning_rate": 8.455313244934324e-06,
      "loss": 2.10107421875,
      "memory(GiB)": 22.58,
      "step": 55,
      "train_speed(iter/s)": 0.03552
    },
    {
      "epoch": 0.30168350168350166,
      "grad_norm": 0.48874730617457113,
      "learning_rate": 8.389882052566106e-06,
      "loss": 2.19189453125,
      "memory(GiB)": 22.58,
      "step": 56,
      "train_speed(iter/s)": 0.035547
    },
    {
      "epoch": 0.30707070707070705,
      "grad_norm": 0.7017590448005361,
      "learning_rate": 8.32335842276713e-06,
      "loss": 1.605224609375,
      "memory(GiB)": 22.58,
      "step": 57,
      "train_speed(iter/s)": 0.035484
    },
    {
      "epoch": 0.31245791245791243,
      "grad_norm": 0.7736924894631574,
      "learning_rate": 8.255763793717868e-06,
      "loss": 2.123779296875,
      "memory(GiB)": 22.58,
      "step": 58,
      "train_speed(iter/s)": 0.035432
    },
    {
      "epoch": 0.3178451178451178,
      "grad_norm": 0.6091631207035194,
      "learning_rate": 8.18711994874345e-06,
      "loss": 1.8798828125,
      "memory(GiB)": 22.58,
      "step": 59,
      "train_speed(iter/s)": 0.035351
    },
    {
      "epoch": 0.32323232323232326,
      "grad_norm": 0.6745360872937951,
      "learning_rate": 8.117449009293668e-06,
      "loss": 2.36767578125,
      "memory(GiB)": 22.58,
      "step": 60,
      "train_speed(iter/s)": 0.035291
    },
    {
      "epoch": 0.32861952861952864,
      "grad_norm": 1.1170607516843722,
      "learning_rate": 8.046773427814043e-06,
      "loss": 2.153076171875,
      "memory(GiB)": 22.58,
      "step": 61,
      "train_speed(iter/s)": 0.035255
    },
    {
      "epoch": 0.33400673400673403,
      "grad_norm": 0.42517306211931166,
      "learning_rate": 7.975115980510187e-06,
      "loss": 1.717041015625,
      "memory(GiB)": 22.58,
      "step": 62,
      "train_speed(iter/s)": 0.035224
    },
    {
      "epoch": 0.3393939393939394,
      "grad_norm": 0.8043024113222557,
      "learning_rate": 7.902499760007867e-06,
      "loss": 1.85888671875,
      "memory(GiB)": 22.58,
      "step": 63,
      "train_speed(iter/s)": 0.035142
    },
    {
      "epoch": 0.3447811447811448,
      "grad_norm": 0.9761638945939747,
      "learning_rate": 7.828948167911073e-06,
      "loss": 1.906005859375,
      "memory(GiB)": 22.58,
      "step": 64,
      "train_speed(iter/s)": 0.035063
    },
    {
      "epoch": 0.3501683501683502,
      "grad_norm": 0.4137734068293326,
      "learning_rate": 7.754484907260513e-06,
      "loss": 2.05712890625,
      "memory(GiB)": 22.58,
      "step": 65,
      "train_speed(iter/s)": 0.034992
    },
    {
      "epoch": 0.35555555555555557,
      "grad_norm": 0.6313489954771672,
      "learning_rate": 7.679133974894984e-06,
      "loss": 1.56591796875,
      "memory(GiB)": 22.58,
      "step": 66,
      "train_speed(iter/s)": 0.035062
    },
    {
      "epoch": 0.36094276094276095,
      "grad_norm": 0.7916770866661113,
      "learning_rate": 7.602919653718044e-06,
      "loss": 1.32373046875,
      "memory(GiB)": 22.58,
      "step": 67,
      "train_speed(iter/s)": 0.035123
    },
    {
      "epoch": 0.36632996632996634,
      "grad_norm": 0.7005145101509135,
      "learning_rate": 7.5258665048725065e-06,
      "loss": 1.677490234375,
      "memory(GiB)": 22.58,
      "step": 68,
      "train_speed(iter/s)": 0.035192
    },
    {
      "epoch": 0.3717171717171717,
      "grad_norm": 0.5600472715983401,
      "learning_rate": 7.447999359825263e-06,
      "loss": 1.8934326171875,
      "memory(GiB)": 22.58,
      "step": 69,
      "train_speed(iter/s)": 0.035242
    },
    {
      "epoch": 0.3771043771043771,
      "grad_norm": 0.7799156688047453,
      "learning_rate": 7.369343312364994e-06,
      "loss": 1.737060546875,
      "memory(GiB)": 22.58,
      "step": 70,
      "train_speed(iter/s)": 0.035303
    },
    {
      "epoch": 0.3824915824915825,
      "grad_norm": 1.0088361337375438,
      "learning_rate": 7.289923710515338e-06,
      "loss": 2.55859375,
      "memory(GiB)": 22.58,
      "step": 71,
      "train_speed(iter/s)": 0.035339
    },
    {
      "epoch": 0.3878787878787879,
      "grad_norm": 0.7778606766770365,
      "learning_rate": 7.2097661483661355e-06,
      "loss": 2.3927001953125,
      "memory(GiB)": 22.58,
      "step": 72,
      "train_speed(iter/s)": 0.035398
    },
    {
      "epoch": 0.39326599326599326,
      "grad_norm": 0.7503526567701239,
      "learning_rate": 7.128896457825364e-06,
      "loss": 2.4095458984375,
      "memory(GiB)": 22.58,
      "step": 73,
      "train_speed(iter/s)": 0.035435
    },
    {
      "epoch": 0.39865319865319865,
      "grad_norm": 0.9293852718192778,
      "learning_rate": 7.047340700294454e-06,
      "loss": 2.0943603515625,
      "memory(GiB)": 22.58,
      "step": 74,
      "train_speed(iter/s)": 0.035473
    },
    {
      "epoch": 0.40404040404040403,
      "grad_norm": 1.2981158494810365,
      "learning_rate": 6.965125158269619e-06,
      "loss": 2.36279296875,
      "memory(GiB)": 22.58,
      "step": 75,
      "train_speed(iter/s)": 0.035498
    },
    {
      "epoch": 0.4094276094276094,
      "grad_norm": 0.5915357318010657,
      "learning_rate": 6.88227632687196e-06,
      "loss": 1.13037109375,
      "memory(GiB)": 22.58,
      "step": 76,
      "train_speed(iter/s)": 0.035521
    },
    {
      "epoch": 0.4148148148148148,
      "grad_norm": 0.8289109263502568,
      "learning_rate": 6.798820905309036e-06,
      "loss": 2.245849609375,
      "memory(GiB)": 22.58,
      "step": 77,
      "train_speed(iter/s)": 0.035549
    },
    {
      "epoch": 0.4202020202020202,
      "grad_norm": 0.7332772758108902,
      "learning_rate": 6.714785788270658e-06,
      "loss": 1.794189453125,
      "memory(GiB)": 22.58,
      "step": 78,
      "train_speed(iter/s)": 0.035574
    },
    {
      "epoch": 0.4255892255892256,
      "grad_norm": 0.8695389561000924,
      "learning_rate": 6.63019805726171e-06,
      "loss": 2.107177734375,
      "memory(GiB)": 22.58,
      "step": 79,
      "train_speed(iter/s)": 0.035564
    },
    {
      "epoch": 0.43097643097643096,
      "grad_norm": 1.0578963540355828,
      "learning_rate": 6.545084971874738e-06,
      "loss": 2.2099609375,
      "memory(GiB)": 22.58,
      "step": 80,
      "train_speed(iter/s)": 0.035518
    },
    {
      "epoch": 0.43636363636363634,
      "grad_norm": 0.5355473518839581,
      "learning_rate": 6.459473961005168e-06,
      "loss": 1.679931640625,
      "memory(GiB)": 22.58,
      "step": 81,
      "train_speed(iter/s)": 0.035449
    },
    {
      "epoch": 0.4417508417508417,
      "grad_norm": 0.47562295475695077,
      "learning_rate": 6.373392614011952e-06,
      "loss": 1.548828125,
      "memory(GiB)": 22.58,
      "step": 82,
      "train_speed(iter/s)": 0.03541
    },
    {
      "epoch": 0.4471380471380471,
      "grad_norm": 1.1873250939202482,
      "learning_rate": 6.286868671826513e-06,
      "loss": 2.3310546875,
      "memory(GiB)": 22.58,
      "step": 83,
      "train_speed(iter/s)": 0.035383
    },
    {
      "epoch": 0.45252525252525255,
      "grad_norm": 0.6325848523967413,
      "learning_rate": 6.19993001801283e-06,
      "loss": 1.63232421875,
      "memory(GiB)": 22.58,
      "step": 84,
      "train_speed(iter/s)": 0.035357
    },
    {
      "epoch": 0.45791245791245794,
      "grad_norm": 0.6180246232374331,
      "learning_rate": 6.112604669781572e-06,
      "loss": 2.5283203125,
      "memory(GiB)": 22.58,
      "step": 85,
      "train_speed(iter/s)": 0.035328
    },
    {
      "epoch": 0.4632996632996633,
      "grad_norm": 0.9254342636136799,
      "learning_rate": 6.024920768961153e-06,
      "loss": 2.09814453125,
      "memory(GiB)": 22.58,
      "step": 86,
      "train_speed(iter/s)": 0.03531
    },
    {
      "epoch": 0.4686868686868687,
      "grad_norm": 1.0220943585915119,
      "learning_rate": 5.936906572928625e-06,
      "loss": 1.8603515625,
      "memory(GiB)": 22.58,
      "step": 87,
      "train_speed(iter/s)": 0.035243
    },
    {
      "epoch": 0.4740740740740741,
      "grad_norm": 0.547874150160307,
      "learning_rate": 5.848590445503345e-06,
      "loss": 2.2890625,
      "memory(GiB)": 22.58,
      "step": 88,
      "train_speed(iter/s)": 0.03516
    },
    {
      "epoch": 0.4794612794612795,
      "grad_norm": 0.7203446700675221,
      "learning_rate": 5.760000847806337e-06,
      "loss": 1.68115234375,
      "memory(GiB)": 22.58,
      "step": 89,
      "train_speed(iter/s)": 0.035117
    },
    {
      "epoch": 0.48484848484848486,
      "grad_norm": 0.7628245708662847,
      "learning_rate": 5.671166329088278e-06,
      "loss": 2.126953125,
      "memory(GiB)": 22.58,
      "step": 90,
      "train_speed(iter/s)": 0.035147
    },
    {
      "epoch": 0.49023569023569025,
      "grad_norm": 0.8089999734614459,
      "learning_rate": 5.582115517529114e-06,
      "loss": 1.948486328125,
      "memory(GiB)": 22.58,
      "step": 91,
      "train_speed(iter/s)": 0.035179
    },
    {
      "epoch": 0.49562289562289563,
      "grad_norm": 0.5039876551970663,
      "learning_rate": 5.4928771110122185e-06,
      "loss": 1.849853515625,
      "memory(GiB)": 22.58,
      "step": 92,
      "train_speed(iter/s)": 0.035212
    },
    {
      "epoch": 0.501010101010101,
      "grad_norm": 0.9008917409254343,
      "learning_rate": 5.403479867876087e-06,
      "loss": 2.642578125,
      "memory(GiB)": 22.58,
      "step": 93,
      "train_speed(iter/s)": 0.035235
    },
    {
      "epoch": 0.5063973063973064,
      "grad_norm": 1.1384096826151604,
      "learning_rate": 5.3139525976465675e-06,
      "loss": 2.49365234375,
      "memory(GiB)": 22.58,
      "step": 94,
      "train_speed(iter/s)": 0.035265
    },
    {
      "epoch": 0.5117845117845118,
      "grad_norm": 0.7491826485818727,
      "learning_rate": 5.224324151752575e-06,
      "loss": 1.88037109375,
      "memory(GiB)": 22.58,
      "step": 95,
      "train_speed(iter/s)": 0.035291
    },
    {
      "epoch": 0.5171717171717172,
      "grad_norm": 0.6169314437426718,
      "learning_rate": 5.134623414228315e-06,
      "loss": 1.485595703125,
      "memory(GiB)": 22.58,
      "step": 96,
      "train_speed(iter/s)": 0.035322
    },
    {
      "epoch": 0.5225589225589226,
      "grad_norm": 0.7458411085328407,
      "learning_rate": 5.04487929240499e-06,
      "loss": 2.030517578125,
      "memory(GiB)": 22.58,
      "step": 97,
      "train_speed(iter/s)": 0.035358
    },
    {
      "epoch": 0.5279461279461279,
      "grad_norm": 0.36969067992245414,
      "learning_rate": 4.955120707595011e-06,
      "loss": 1.82421875,
      "memory(GiB)": 22.58,
      "step": 98,
      "train_speed(iter/s)": 0.03539
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.7184526746731991,
      "learning_rate": 4.865376585771687e-06,
      "loss": 2.1650390625,
      "memory(GiB)": 22.58,
      "step": 99,
      "train_speed(iter/s)": 0.035417
    },
    {
      "epoch": 0.5387205387205387,
      "grad_norm": 0.5860047275017632,
      "learning_rate": 4.775675848247427e-06,
      "loss": 2.016845703125,
      "memory(GiB)": 22.58,
      "step": 100,
      "train_speed(iter/s)": 0.035451
    },
    {
      "epoch": 0.5441077441077441,
      "grad_norm": 0.6740666234718802,
      "learning_rate": 4.686047402353433e-06,
      "loss": 1.481689453125,
      "memory(GiB)": 22.58,
      "step": 101,
      "train_speed(iter/s)": 0.035484
    },
    {
      "epoch": 0.5494949494949495,
      "grad_norm": 0.5962985498733315,
      "learning_rate": 4.596520132123915e-06,
      "loss": 2.225341796875,
      "memory(GiB)": 22.58,
      "step": 102,
      "train_speed(iter/s)": 0.035522
    },
    {
      "epoch": 0.5548821548821549,
      "grad_norm": 0.6185754487719404,
      "learning_rate": 4.507122888987782e-06,
      "loss": 2.630615234375,
      "memory(GiB)": 22.58,
      "step": 103,
      "train_speed(iter/s)": 0.035566
    },
    {
      "epoch": 0.5602693602693603,
      "grad_norm": 0.8891703200104817,
      "learning_rate": 4.417884482470887e-06,
      "loss": 1.98291015625,
      "memory(GiB)": 22.58,
      "step": 104,
      "train_speed(iter/s)": 0.03558
    },
    {
      "epoch": 0.5656565656565656,
      "grad_norm": 0.5620520767612842,
      "learning_rate": 4.3288336709117246e-06,
      "loss": 1.933349609375,
      "memory(GiB)": 22.58,
      "step": 105,
      "train_speed(iter/s)": 0.035549
    },
    {
      "epoch": 0.571043771043771,
      "grad_norm": 1.3690550098042635,
      "learning_rate": 4.239999152193664e-06,
      "loss": 2.217529296875,
      "memory(GiB)": 22.58,
      "step": 106,
      "train_speed(iter/s)": 0.035527
    },
    {
      "epoch": 0.5764309764309764,
      "grad_norm": 0.4160377433886458,
      "learning_rate": 4.1514095544966556e-06,
      "loss": 1.737060546875,
      "memory(GiB)": 22.58,
      "step": 107,
      "train_speed(iter/s)": 0.03551
    },
    {
      "epoch": 0.5818181818181818,
      "grad_norm": 0.8209806760015574,
      "learning_rate": 4.063093427071376e-06,
      "loss": 2.782470703125,
      "memory(GiB)": 22.58,
      "step": 108,
      "train_speed(iter/s)": 0.035486
    },
    {
      "epoch": 0.5872053872053872,
      "grad_norm": 0.726795857048424,
      "learning_rate": 3.975079231038848e-06,
      "loss": 2.009521484375,
      "memory(GiB)": 22.58,
      "step": 109,
      "train_speed(iter/s)": 0.035449
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 1.2624010183388914,
      "learning_rate": 3.887395330218429e-06,
      "loss": 2.59814453125,
      "memory(GiB)": 22.58,
      "step": 110,
      "train_speed(iter/s)": 0.035431
    },
    {
      "epoch": 0.597979797979798,
      "grad_norm": 0.7513165711048129,
      "learning_rate": 3.8000699819871704e-06,
      "loss": 1.6396484375,
      "memory(GiB)": 22.58,
      "step": 111,
      "train_speed(iter/s)": 0.035402
    },
    {
      "epoch": 0.6033670033670033,
      "grad_norm": 0.4587115862936887,
      "learning_rate": 3.7131313281734895e-06,
      "loss": 2.044189453125,
      "memory(GiB)": 22.58,
      "step": 112,
      "train_speed(iter/s)": 0.035373
    },
    {
      "epoch": 0.6087542087542087,
      "grad_norm": 0.41256540620865373,
      "learning_rate": 3.62660738598805e-06,
      "loss": 1.9287109375,
      "memory(GiB)": 22.58,
      "step": 113,
      "train_speed(iter/s)": 0.03534
    },
    {
      "epoch": 0.6141414141414141,
      "grad_norm": 0.4286929355926436,
      "learning_rate": 3.540526038994834e-06,
      "loss": 1.646728515625,
      "memory(GiB)": 22.58,
      "step": 114,
      "train_speed(iter/s)": 0.035359
    },
    {
      "epoch": 0.6195286195286195,
      "grad_norm": 0.8246295061207459,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 1.7587890625,
      "memory(GiB)": 22.58,
      "step": 115,
      "train_speed(iter/s)": 0.035387
    },
    {
      "epoch": 0.6249158249158249,
      "grad_norm": 0.653674454928138,
      "learning_rate": 3.3698019427382912e-06,
      "loss": 1.9765625,
      "memory(GiB)": 22.58,
      "step": 116,
      "train_speed(iter/s)": 0.035417
    },
    {
      "epoch": 0.6303030303030303,
      "grad_norm": 0.6402748838297282,
      "learning_rate": 3.2852142117293435e-06,
      "loss": 1.94970703125,
      "memory(GiB)": 22.58,
      "step": 117,
      "train_speed(iter/s)": 0.035431
    },
    {
      "epoch": 0.6356902356902356,
      "grad_norm": 0.5582058394376362,
      "learning_rate": 3.2011790946909673e-06,
      "loss": 1.9755859375,
      "memory(GiB)": 22.58,
      "step": 118,
      "train_speed(iter/s)": 0.03546
    },
    {
      "epoch": 0.641077441077441,
      "grad_norm": 0.8447371297083311,
      "learning_rate": 3.11772367312804e-06,
      "loss": 1.784423828125,
      "memory(GiB)": 22.58,
      "step": 119,
      "train_speed(iter/s)": 0.035493
    },
    {
      "epoch": 0.6464646464646465,
      "grad_norm": 0.7640836687261319,
      "learning_rate": 3.0348748417303826e-06,
      "loss": 1.76171875,
      "memory(GiB)": 22.58,
      "step": 120,
      "train_speed(iter/s)": 0.035513
    },
    {
      "epoch": 0.6518518518518519,
      "grad_norm": 0.6689239585125656,
      "learning_rate": 2.9526592997055488e-06,
      "loss": 2.076904296875,
      "memory(GiB)": 22.58,
      "step": 121,
      "train_speed(iter/s)": 0.03554
    },
    {
      "epoch": 0.6572390572390573,
      "grad_norm": 0.8205443169011045,
      "learning_rate": 2.871103542174637e-06,
      "loss": 2.4423828125,
      "memory(GiB)": 22.58,
      "step": 122,
      "train_speed(iter/s)": 0.035564
    },
    {
      "epoch": 0.6626262626262627,
      "grad_norm": 0.3861380215034983,
      "learning_rate": 2.790233851633868e-06,
      "loss": 1.405517578125,
      "memory(GiB)": 22.58,
      "step": 123,
      "train_speed(iter/s)": 0.035589
    },
    {
      "epoch": 0.6680134680134681,
      "grad_norm": 0.9319720706049784,
      "learning_rate": 2.7100762894846633e-06,
      "loss": 1.884033203125,
      "memory(GiB)": 22.58,
      "step": 124,
      "train_speed(iter/s)": 0.035611
    },
    {
      "epoch": 0.6734006734006734,
      "grad_norm": 0.4894495365923113,
      "learning_rate": 2.6306566876350072e-06,
      "loss": 1.992431640625,
      "memory(GiB)": 22.58,
      "step": 125,
      "train_speed(iter/s)": 0.035618
    },
    {
      "epoch": 0.6787878787878788,
      "grad_norm": 0.5156966779296556,
      "learning_rate": 2.55200064017474e-06,
      "loss": 1.7987060546875,
      "memory(GiB)": 22.58,
      "step": 126,
      "train_speed(iter/s)": 0.035593
    },
    {
      "epoch": 0.6841750841750842,
      "grad_norm": 0.39627149470201456,
      "learning_rate": 2.4741334951274948e-06,
      "loss": 1.779541015625,
      "memory(GiB)": 22.58,
      "step": 127,
      "train_speed(iter/s)": 0.035563
    },
    {
      "epoch": 0.6895622895622896,
      "grad_norm": 0.7990132228587018,
      "learning_rate": 2.3970803462819586e-06,
      "loss": 2.385498046875,
      "memory(GiB)": 22.58,
      "step": 128,
      "train_speed(iter/s)": 0.035533
    },
    {
      "epoch": 0.694949494949495,
      "grad_norm": 0.542336867995926,
      "learning_rate": 2.320866025105016e-06,
      "loss": 1.775390625,
      "memory(GiB)": 22.58,
      "step": 129,
      "train_speed(iter/s)": 0.035487
    },
    {
      "epoch": 0.7003367003367004,
      "grad_norm": 0.40553603638944413,
      "learning_rate": 2.245515092739488e-06,
      "loss": 1.65771484375,
      "memory(GiB)": 22.58,
      "step": 130,
      "train_speed(iter/s)": 0.035457
    },
    {
      "epoch": 0.7057239057239058,
      "grad_norm": 0.5705311307759141,
      "learning_rate": 2.171051832088928e-06,
      "loss": 1.392578125,
      "memory(GiB)": 22.58,
      "step": 131,
      "train_speed(iter/s)": 0.035439
    },
    {
      "epoch": 0.7111111111111111,
      "grad_norm": 0.5637194621292295,
      "learning_rate": 2.097500239992132e-06,
      "loss": 1.808349609375,
      "memory(GiB)": 22.58,
      "step": 132,
      "train_speed(iter/s)": 0.035412
    },
    {
      "epoch": 0.7164983164983165,
      "grad_norm": 1.0166298249729564,
      "learning_rate": 2.0248840194898155e-06,
      "loss": 1.88232421875,
      "memory(GiB)": 22.58,
      "step": 133,
      "train_speed(iter/s)": 0.035367
    },
    {
      "epoch": 0.7218855218855219,
      "grad_norm": 0.365517442677317,
      "learning_rate": 1.95322657218596e-06,
      "loss": 1.8359375,
      "memory(GiB)": 22.58,
      "step": 134,
      "train_speed(iter/s)": 0.035304
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.5937921378630181,
      "learning_rate": 1.8825509907063328e-06,
      "loss": 2.16162109375,
      "memory(GiB)": 22.58,
      "step": 135,
      "train_speed(iter/s)": 0.035244
    },
    {
      "epoch": 0.7326599326599327,
      "grad_norm": 0.5630691840328598,
      "learning_rate": 1.8128800512565514e-06,
      "loss": 1.953369140625,
      "memory(GiB)": 22.58,
      "step": 136,
      "train_speed(iter/s)": 0.035272
    },
    {
      "epoch": 0.7380471380471381,
      "grad_norm": 0.9036946278139879,
      "learning_rate": 1.7442362062821323e-06,
      "loss": 3.1923828125,
      "memory(GiB)": 22.58,
      "step": 137,
      "train_speed(iter/s)": 0.035287
    },
    {
      "epoch": 0.7434343434343434,
      "grad_norm": 0.5335511498935785,
      "learning_rate": 1.6766415772328732e-06,
      "loss": 1.705322265625,
      "memory(GiB)": 22.58,
      "step": 138,
      "train_speed(iter/s)": 0.035295
    },
    {
      "epoch": 0.7488215488215488,
      "grad_norm": 0.8149099249815346,
      "learning_rate": 1.610117947433897e-06,
      "loss": 2.81689453125,
      "memory(GiB)": 22.58,
      "step": 139,
      "train_speed(iter/s)": 0.035308
    },
    {
      "epoch": 0.7542087542087542,
      "grad_norm": 0.5287002241309334,
      "learning_rate": 1.544686755065677e-06,
      "loss": 1.266357421875,
      "memory(GiB)": 22.58,
      "step": 140,
      "train_speed(iter/s)": 0.035318
    },
    {
      "epoch": 0.7595959595959596,
      "grad_norm": 0.6139302197140588,
      "learning_rate": 1.4803690862552755e-06,
      "loss": 1.817626953125,
      "memory(GiB)": 22.58,
      "step": 141,
      "train_speed(iter/s)": 0.035343
    },
    {
      "epoch": 0.764983164983165,
      "grad_norm": 0.6333656991964685,
      "learning_rate": 1.4171856682810386e-06,
      "loss": 2.101806640625,
      "memory(GiB)": 22.58,
      "step": 142,
      "train_speed(iter/s)": 0.035364
    },
    {
      "epoch": 0.7703703703703704,
      "grad_norm": 0.8829740683592863,
      "learning_rate": 1.3551568628929434e-06,
      "loss": 2.508056640625,
      "memory(GiB)": 22.58,
      "step": 143,
      "train_speed(iter/s)": 0.03539
    },
    {
      "epoch": 0.7757575757575758,
      "grad_norm": 0.5801508492146695,
      "learning_rate": 1.2943026597507268e-06,
      "loss": 1.6142578125,
      "memory(GiB)": 22.58,
      "step": 144,
      "train_speed(iter/s)": 0.035413
    },
    {
      "epoch": 0.7811447811447811,
      "grad_norm": 0.48056036748223746,
      "learning_rate": 1.234642669981946e-06,
      "loss": 1.942138671875,
      "memory(GiB)": 22.58,
      "step": 145,
      "train_speed(iter/s)": 0.035431
    },
    {
      "epoch": 0.7865319865319865,
      "grad_norm": 0.5473637984491948,
      "learning_rate": 1.1761961198620081e-06,
      "loss": 1.748779296875,
      "memory(GiB)": 22.58,
      "step": 146,
      "train_speed(iter/s)": 0.035455
    },
    {
      "epoch": 0.7919191919191919,
      "grad_norm": 0.7226102542834439,
      "learning_rate": 1.118981844618236e-06,
      "loss": 1.657470703125,
      "memory(GiB)": 22.58,
      "step": 147,
      "train_speed(iter/s)": 0.035472
    },
    {
      "epoch": 0.7973063973063973,
      "grad_norm": 0.677002948688539,
      "learning_rate": 1.06301828235994e-06,
      "loss": 1.730224609375,
      "memory(GiB)": 22.58,
      "step": 148,
      "train_speed(iter/s)": 0.035492
    },
    {
      "epoch": 0.8026936026936027,
      "grad_norm": 0.4690206204454014,
      "learning_rate": 1.0083234681364934e-06,
      "loss": 1.97509765625,
      "memory(GiB)": 22.58,
      "step": 149,
      "train_speed(iter/s)": 0.035513
    },
    {
      "epoch": 0.8080808080808081,
      "grad_norm": 0.38431237166068455,
      "learning_rate": 9.549150281252633e-07,
      "loss": 1.977783203125,
      "memory(GiB)": 22.58,
      "step": 150,
      "train_speed(iter/s)": 0.035533
    },
    {
      "epoch": 0.8134680134680135,
      "grad_norm": 1.4318443328161967,
      "learning_rate": 9.028101739513406e-07,
      "loss": 2.696533203125,
      "memory(GiB)": 22.58,
      "step": 151,
      "train_speed(iter/s)": 0.035549
    },
    {
      "epoch": 0.8188552188552188,
      "grad_norm": 0.39825000243591335,
      "learning_rate": 8.520256971408453e-07,
      "loss": 1.52294921875,
      "memory(GiB)": 22.58,
      "step": 152,
      "train_speed(iter/s)": 0.035566
    },
    {
      "epoch": 0.8242424242424242,
      "grad_norm": 0.403223921534723,
      "learning_rate": 8.025779637096138e-07,
      "loss": 2.0869140625,
      "memory(GiB)": 22.58,
      "step": 153,
      "train_speed(iter/s)": 0.035581
    },
    {
      "epoch": 0.8296296296296296,
      "grad_norm": 0.39408518518211616,
      "learning_rate": 7.544829088890326e-07,
      "loss": 2.085693359375,
      "memory(GiB)": 22.58,
      "step": 154,
      "train_speed(iter/s)": 0.035601
    },
    {
      "epoch": 0.835016835016835,
      "grad_norm": 0.6580639598152973,
      "learning_rate": 7.077560319906696e-07,
      "loss": 1.58740234375,
      "memory(GiB)": 22.58,
      "step": 155,
      "train_speed(iter/s)": 0.035601
    },
    {
      "epoch": 0.8404040404040404,
      "grad_norm": 0.5455643216936216,
      "learning_rate": 6.624123914114122e-07,
      "loss": 1.76953125,
      "memory(GiB)": 22.58,
      "step": 156,
      "train_speed(iter/s)": 0.035584
    },
    {
      "epoch": 0.8457912457912458,
      "grad_norm": 0.9580661740362665,
      "learning_rate": 6.184665997806832e-07,
      "loss": 2.3505859375,
      "memory(GiB)": 22.58,
      "step": 157,
      "train_speed(iter/s)": 0.035562
    },
    {
      "epoch": 0.8511784511784511,
      "grad_norm": 0.49273093322057226,
      "learning_rate": 5.759328192513075e-07,
      "loss": 1.632080078125,
      "memory(GiB)": 22.58,
      "step": 158,
      "train_speed(iter/s)": 0.035543
    },
    {
      "epoch": 0.8565656565656565,
      "grad_norm": 0.5074137587596991,
      "learning_rate": 5.348247569355736e-07,
      "loss": 1.71240234375,
      "memory(GiB)": 22.58,
      "step": 159,
      "train_speed(iter/s)": 0.03552
    },
    {
      "epoch": 0.8619528619528619,
      "grad_norm": 0.7185716029221749,
      "learning_rate": 4.951556604879049e-07,
      "loss": 2.36669921875,
      "memory(GiB)": 22.58,
      "step": 160,
      "train_speed(iter/s)": 0.035503
    },
    {
      "epoch": 0.8673400673400673,
      "grad_norm": 0.7811542866299452,
      "learning_rate": 4.569383138356276e-07,
      "loss": 1.678955078125,
      "memory(GiB)": 22.58,
      "step": 161,
      "train_speed(iter/s)": 0.035485
    },
    {
      "epoch": 0.8727272727272727,
      "grad_norm": 0.5128778192942757,
      "learning_rate": 4.201850330591678e-07,
      "loss": 2.072998046875,
      "memory(GiB)": 22.58,
      "step": 162,
      "train_speed(iter/s)": 0.035459
    },
    {
      "epoch": 0.8781144781144781,
      "grad_norm": 0.6851552480944826,
      "learning_rate": 3.8490766242301356e-07,
      "loss": 1.55322265625,
      "memory(GiB)": 22.58,
      "step": 163,
      "train_speed(iter/s)": 0.035422
    },
    {
      "epoch": 0.8835016835016835,
      "grad_norm": 1.0656634793505568,
      "learning_rate": 3.511175705587433e-07,
      "loss": 2.09228515625,
      "memory(GiB)": 22.58,
      "step": 164,
      "train_speed(iter/s)": 0.035412
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.4704867924767551,
      "learning_rate": 3.18825646801314e-07,
      "loss": 2.178955078125,
      "memory(GiB)": 22.58,
      "step": 165,
      "train_speed(iter/s)": 0.03542
    },
    {
      "epoch": 0.8942760942760942,
      "grad_norm": 0.3438531193817133,
      "learning_rate": 2.8804229767982637e-07,
      "loss": 1.828125,
      "memory(GiB)": 22.58,
      "step": 166,
      "train_speed(iter/s)": 0.035441
    },
    {
      "epoch": 0.8996632996632996,
      "grad_norm": 0.9072486327466182,
      "learning_rate": 2.587774435638679e-07,
      "loss": 1.902099609375,
      "memory(GiB)": 22.58,
      "step": 167,
      "train_speed(iter/s)": 0.035458
    },
    {
      "epoch": 0.9050505050505051,
      "grad_norm": 0.40209833194248146,
      "learning_rate": 2.3104051546654016e-07,
      "loss": 1.72314453125,
      "memory(GiB)": 22.58,
      "step": 168,
      "train_speed(iter/s)": 0.035472
    },
    {
      "epoch": 0.9104377104377105,
      "grad_norm": 0.6534758670706157,
      "learning_rate": 2.0484045200517222e-07,
      "loss": 1.73095703125,
      "memory(GiB)": 22.58,
      "step": 169,
      "train_speed(iter/s)": 0.03548
    },
    {
      "epoch": 0.9158249158249159,
      "grad_norm": 0.36229213242531244,
      "learning_rate": 1.801856965207338e-07,
      "loss": 1.954345703125,
      "memory(GiB)": 22.58,
      "step": 170,
      "train_speed(iter/s)": 0.035499
    },
    {
      "epoch": 0.9212121212121213,
      "grad_norm": 0.41462023840060064,
      "learning_rate": 1.5708419435684463e-07,
      "loss": 1.726318359375,
      "memory(GiB)": 22.58,
      "step": 171,
      "train_speed(iter/s)": 0.035512
    },
    {
      "epoch": 0.9265993265993266,
      "grad_norm": 0.793282464162017,
      "learning_rate": 1.3554339029927532e-07,
      "loss": 2.07861328125,
      "memory(GiB)": 22.58,
      "step": 172,
      "train_speed(iter/s)": 0.035526
    },
    {
      "epoch": 0.931986531986532,
      "grad_norm": 0.4924403822397691,
      "learning_rate": 1.1557022617676217e-07,
      "loss": 1.400634765625,
      "memory(GiB)": 22.58,
      "step": 173,
      "train_speed(iter/s)": 0.035541
    },
    {
      "epoch": 0.9373737373737374,
      "grad_norm": 0.41980069690346106,
      "learning_rate": 9.717113862389993e-08,
      "loss": 2.12158203125,
      "memory(GiB)": 22.58,
      "step": 174,
      "train_speed(iter/s)": 0.03556
    },
    {
      "epoch": 0.9427609427609428,
      "grad_norm": 0.8809220146060189,
      "learning_rate": 8.035205700685167e-08,
      "loss": 2.621826171875,
      "memory(GiB)": 22.58,
      "step": 175,
      "train_speed(iter/s)": 0.035577
    },
    {
      "epoch": 0.9481481481481482,
      "grad_norm": 0.6908254679787823,
      "learning_rate": 6.511840151252169e-08,
      "loss": 1.813232421875,
      "memory(GiB)": 22.58,
      "step": 176,
      "train_speed(iter/s)": 0.035597
    },
    {
      "epoch": 0.9535353535353536,
      "grad_norm": 0.49484208186969647,
      "learning_rate": 5.1475081401825553e-08,
      "loss": 1.9814453125,
      "memory(GiB)": 22.58,
      "step": 177,
      "train_speed(iter/s)": 0.035578
    },
    {
      "epoch": 0.958922558922559,
      "grad_norm": 0.6989450753180266,
      "learning_rate": 3.9426493427611177e-08,
      "loss": 1.78466796875,
      "memory(GiB)": 22.58,
      "step": 178,
      "train_speed(iter/s)": 0.035563
    },
    {
      "epoch": 0.9643097643097643,
      "grad_norm": 0.5543481036485521,
      "learning_rate": 2.8976520417742794e-08,
      "loss": 1.727783203125,
      "memory(GiB)": 22.58,
      "step": 179,
      "train_speed(iter/s)": 0.035552
    },
    {
      "epoch": 0.9696969696969697,
      "grad_norm": 0.5545843045026326,
      "learning_rate": 2.012853002380466e-08,
      "loss": 1.75634765625,
      "memory(GiB)": 22.58,
      "step": 180,
      "train_speed(iter/s)": 0.035543
    },
    {
      "epoch": 0.9750841750841751,
      "grad_norm": 0.3433152184276571,
      "learning_rate": 1.2885373635829756e-08,
      "loss": 1.64208984375,
      "memory(GiB)": 22.58,
      "step": 181,
      "train_speed(iter/s)": 0.035533
    },
    {
      "epoch": 0.9804713804713805,
      "grad_norm": 0.9002229182397717,
      "learning_rate": 7.249385463395375e-09,
      "loss": 2.177490234375,
      "memory(GiB)": 22.58,
      "step": 182,
      "train_speed(iter/s)": 0.035517
    },
    {
      "epoch": 0.9858585858585859,
      "grad_norm": 0.5840020558119475,
      "learning_rate": 3.2223817833931803e-09,
      "loss": 1.4775390625,
      "memory(GiB)": 22.58,
      "step": 183,
      "train_speed(iter/s)": 0.035499
    },
    {
      "epoch": 0.9912457912457913,
      "grad_norm": 0.31651969118225726,
      "learning_rate": 8.056603547090813e-10,
      "loss": 1.804931640625,
      "memory(GiB)": 22.58,
      "step": 184,
      "train_speed(iter/s)": 0.035513
    },
    {
      "epoch": 0.9966329966329966,
      "grad_norm": 0.5699524292753597,
      "learning_rate": 0.0,
      "loss": 1.653076171875,
      "memory(GiB)": 22.58,
      "step": 185,
      "train_speed(iter/s)": 0.035529
    },
    {
      "epoch": 0.9966329966329966,
      "eval_loss": 0.12199707329273224,
      "eval_runtime": 16.4404,
      "eval_samples_per_second": 1.825,
      "eval_steps_per_second": 1.825,
      "step": 185
    },
    {
      "epoch": 0.9966329966329966,
      "eval_loss": 0.12199707329273224,
      "eval_runtime": 18.3596,
      "eval_samples_per_second": 1.634,
      "eval_steps_per_second": 1.634,
      "step": 185
    }
  ],
  "logging_steps": 1,
  "max_steps": 185,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 664501364736.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}