{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9991717740599636,
  "eval_steps": 100,
  "global_step": 754,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 1843.4614156087239,
      "epoch": 0.003975484512174921,
      "grad_norm": 0.08699692785739899,
      "kl": 5.9882799784342446e-05,
      "learning_rate": 7.894736842105263e-07,
      "loss": 0.0,
      "reward": 0.20442708857202282,
      "reward_std": 0.18642982677556574,
      "rewards/accuracy_reward": 0.1879340319816644,
      "rewards/format_reward": 0.0164930559694767,
      "step": 3
    },
    {
      "completion_length": 1872.7357126871746,
      "epoch": 0.007950969024349842,
      "grad_norm": 0.08034715801477432,
      "kl": 0.00017563501993815103,
      "learning_rate": 1.5789473684210526e-06,
      "loss": 0.0,
      "reward": 0.16623264349376163,
      "reward_std": 0.166806096288686,
      "rewards/accuracy_reward": 0.15190972640023878,
      "rewards/format_reward": 0.014322916977107525,
      "step": 6
    },
    {
      "completion_length": 1840.263064066569,
      "epoch": 0.011926453536524764,
      "grad_norm": 0.07688009738922119,
      "kl": 0.00018552939097086588,
      "learning_rate": 2.368421052631579e-06,
      "loss": 0.0,
      "reward": 0.22352431349766752,
      "reward_std": 0.17657933492834368,
      "rewards/accuracy_reward": 0.20355903388311467,
      "rewards/format_reward": 0.019965278489204746,
      "step": 9
    },
    {
      "completion_length": 1760.6285069783528,
      "epoch": 0.015901938048699684,
      "grad_norm": 0.1042766273021698,
      "kl": 0.00028959910074869793,
      "learning_rate": 3.157894736842105e-06,
      "loss": 0.0,
      "reward": 0.2647569526452571,
      "reward_std": 0.219600356494387,
      "rewards/accuracy_reward": 0.2326388960548987,
      "rewards/format_reward": 0.032118056512748204,
      "step": 12
    },
    {
      "completion_length": 1722.3082021077473,
      "epoch": 0.019877422560874606,
      "grad_norm": 0.3040783703327179,
      "kl": 0.0018845796585083008,
      "learning_rate": 3.947368421052632e-06,
      "loss": 0.0001,
      "reward": 0.3059895912495752,
      "reward_std": 0.23623824515379965,
      "rewards/accuracy_reward": 0.23784722954345247,
      "rewards/format_reward": 0.06814236252103001,
      "step": 15
    },
    {
      "completion_length": 845.952714920044,
      "epoch": 0.023852907073049528,
      "grad_norm": 1.3506791591644287,
      "kl": 0.3431205749511719,
      "learning_rate": 4.736842105263158e-06,
      "loss": 0.0137,
      "reward": 0.6740451576188207,
      "reward_std": 0.2776922438448916,
      "rewards/accuracy_reward": 0.1336805592291057,
      "rewards/format_reward": 0.5403645950524757,
      "step": 18
    },
    {
      "completion_length": 66.15755401055019,
      "epoch": 0.02782839158522445,
      "grad_norm": 1.3607665300369263,
      "kl": 0.6993815104166666,
      "learning_rate": 5.526315789473685e-06,
      "loss": 0.028,
      "reward": 0.9774305758376917,
      "reward_std": 0.09281354808869462,
      "rewards/accuracy_reward": 0.018663194845430553,
      "rewards/format_reward": 0.9587673805654049,
      "step": 21
    },
    {
      "completion_length": 118.68446455399196,
      "epoch": 0.03180387609739937,
      "grad_norm": 0.8041670322418213,
      "kl": 0.53955078125,
      "learning_rate": 6.31578947368421e-06,
      "loss": 0.0216,
      "reward": 0.9665798830489317,
      "reward_std": 0.1714695317981144,
      "rewards/accuracy_reward": 0.04600694558272759,
      "rewards/format_reward": 0.9205729328095913,
      "step": 24
    },
    {
      "completion_length": 88.47830098867416,
      "epoch": 0.03577936060957429,
      "grad_norm": 0.8617585301399231,
      "kl": 0.59326171875,
      "learning_rate": 7.1052631578947375e-06,
      "loss": 0.0237,
      "reward": 1.0386284987131755,
      "reward_std": 0.2134858975186944,
      "rewards/accuracy_reward": 0.09592014209677775,
      "rewards/format_reward": 0.9427083507180214,
      "step": 27
    },
    {
      "completion_length": 30.138455788294475,
      "epoch": 0.03975484512174921,
      "grad_norm": 2.2023513317108154,
      "kl": 0.8590494791666666,
      "learning_rate": 7.894736842105265e-06,
      "loss": 0.0344,
      "reward": 1.1623264302810032,
      "reward_std": 0.16990292662133774,
      "rewards/accuracy_reward": 0.17361111589707434,
      "rewards/format_reward": 0.9887152872979641,
      "step": 30
    },
    {
      "completion_length": 35.736980040868126,
      "epoch": 0.043730329633924134,
      "grad_norm": 1.1060832738876343,
      "kl": 0.8148600260416666,
      "learning_rate": 8.68421052631579e-06,
      "loss": 0.0326,
      "reward": 1.1657986442248027,
      "reward_std": 0.17117769015021622,
      "rewards/accuracy_reward": 0.18793403407714018,
      "rewards/format_reward": 0.9778645994762579,
      "step": 33
    },
    {
      "completion_length": 35.928820510705314,
      "epoch": 0.047705814146099056,
      "grad_norm": 1.2442351579666138,
      "kl": 0.847412109375,
      "learning_rate": 9.473684210526315e-06,
      "loss": 0.0339,
      "reward": 1.2052951740721862,
      "reward_std": 0.16379862558096647,
      "rewards/accuracy_reward": 0.22265625485063842,
      "rewards/format_reward": 0.9826389029622078,
      "step": 36
    },
    {
      "completion_length": 70.93489801883698,
      "epoch": 0.05168129865827398,
      "grad_norm": 1.4330227375030518,
      "kl": 0.8037923177083334,
      "learning_rate": 1.0263157894736844e-05,
      "loss": 0.0321,
      "reward": 1.1744792064030964,
      "reward_std": 0.22849255722636977,
      "rewards/accuracy_reward": 0.22222222892257074,
      "rewards/format_reward": 0.9522569614152113,
      "step": 39
    },
    {
      "completion_length": 81.15885670979817,
      "epoch": 0.0556567831704489,
      "grad_norm": 1.0737708806991577,
      "kl": 0.7923177083333334,
      "learning_rate": 1.105263157894737e-05,
      "loss": 0.0317,
      "reward": 1.14930559694767,
      "reward_std": 0.22925202331195274,
      "rewards/accuracy_reward": 0.19184028345625848,
      "rewards/format_reward": 0.9574652947485447,
      "step": 42
    },
    {
      "completion_length": 69.16927303870519,
      "epoch": 0.05963226768262382,
      "grad_norm": 0.8058044910430908,
      "kl": 0.8806966145833334,
      "learning_rate": 1.1842105263157895e-05,
      "loss": 0.0352,
      "reward": 1.1675347524384658,
      "reward_std": 0.1868902291947355,
      "rewards/accuracy_reward": 0.19618056225590408,
      "rewards/format_reward": 0.9713541852931181,
      "step": 45
    },
    {
      "completion_length": 57.069880266984306,
      "epoch": 0.06360775219479874,
      "grad_norm": 2.353023052215576,
      "kl": 0.91162109375,
      "learning_rate": 1.263157894736842e-05,
      "loss": 0.0365,
      "reward": 1.189236156642437,
      "reward_std": 0.18126761401072145,
      "rewards/accuracy_reward": 0.20095486647915095,
      "rewards/format_reward": 0.9882812586923441,
      "step": 48
    },
    {
      "completion_length": 21.48567771911621,
      "epoch": 0.06758323670697367,
      "grad_norm": 0.964798629283905,
      "kl": 0.8650716145833334,
      "learning_rate": 1.3421052631578948e-05,
      "loss": 0.0346,
      "reward": 1.2161458743115265,
      "reward_std": 0.1899353281284372,
      "rewards/accuracy_reward": 0.21961806206187853,
      "rewards/format_reward": 0.996527781089147,
      "step": 51
    },
    {
      "completion_length": 53.81597367922465,
      "epoch": 0.07155872121914858,
      "grad_norm": 1.0664324760437012,
      "kl": 0.8111572265625,
      "learning_rate": 1.4210526315789475e-05,
      "loss": 0.0324,
      "reward": 1.162326426555713,
      "reward_std": 0.23168744108018777,
      "rewards/accuracy_reward": 0.20008681147980192,
      "rewards/format_reward": 0.9622395982344946,
      "step": 54
    },
    {
      "completion_length": 208.98611625035605,
      "epoch": 0.07553420573132351,
      "grad_norm": 0.8128153085708618,
      "kl": 0.6840006510416666,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.0274,
      "reward": 1.1306424004336197,
      "reward_std": 0.35048759169876575,
      "rewards/accuracy_reward": 0.22743056244992962,
      "rewards/format_reward": 0.9032118245959282,
      "step": 57
    },
    {
      "completion_length": 260.03820244471234,
      "epoch": 0.07950969024349842,
      "grad_norm": 0.5030148029327393,
      "kl": 0.599609375,
      "learning_rate": 1.578947368421053e-05,
      "loss": 0.024,
      "reward": 1.168402807166179,
      "reward_std": 0.28692516156782705,
      "rewards/accuracy_reward": 0.21223958927051476,
      "rewards/format_reward": 0.9561632163822651,
      "step": 60
    },
    {
      "completion_length": 191.35243598620096,
      "epoch": 0.08348517475567335,
      "grad_norm": 0.5893499851226807,
      "kl": 0.6812337239583334,
      "learning_rate": 1.6578947368421053e-05,
      "loss": 0.0273,
      "reward": 1.1432291989525158,
      "reward_std": 0.21883391573404273,
      "rewards/accuracy_reward": 0.17057292070239782,
      "rewards/format_reward": 0.9726562661429247,
      "step": 63
    },
    {
      "completion_length": 304.99697029590607,
      "epoch": 0.08746065926784827,
      "grad_norm": 0.7647993564605713,
      "kl": 0.6839599609375,
      "learning_rate": 1.736842105263158e-05,
      "loss": 0.0274,
      "reward": 1.1657986467083294,
      "reward_std": 0.2664798041029523,
      "rewards/accuracy_reward": 0.210069450433366,
      "rewards/format_reward": 0.9557291840513548,
      "step": 66
    },
    {
      "completion_length": 84.33941195408504,
      "epoch": 0.0914361437800232,
      "grad_norm": 1.6230992078781128,
      "kl": 0.8506673177083334,
      "learning_rate": 1.8157894736842107e-05,
      "loss": 0.034,
      "reward": 1.1362847598890464,
      "reward_std": 0.21719592344015837,
      "rewards/accuracy_reward": 0.17838542186655104,
      "rewards/format_reward": 0.9578993221124014,
      "step": 69
    },
    {
      "completion_length": 47.16927206516266,
      "epoch": 0.09541162829219811,
      "grad_norm": 0.5694164633750916,
      "kl": 0.8841145833333334,
      "learning_rate": 1.894736842105263e-05,
      "loss": 0.0354,
      "reward": 1.1827257337669532,
      "reward_std": 0.18139228488629064,
      "rewards/accuracy_reward": 0.19487847795244306,
      "rewards/format_reward": 0.9878472325702509,
      "step": 72
    },
    {
      "completion_length": 65.3068592151006,
      "epoch": 0.09938711280437303,
      "grad_norm": 0.8147668838500977,
      "kl": 0.8631184895833334,
      "learning_rate": 1.9736842105263158e-05,
      "loss": 0.0345,
      "reward": 1.2265625409781933,
      "reward_std": 0.22970331188601753,
      "rewards/accuracy_reward": 0.24826389558923742,
      "rewards/format_reward": 0.9782986268401146,
      "step": 75
    },
    {
      "completion_length": 101.73307637373607,
      "epoch": 0.10336259731654796,
      "grad_norm": 3.9387757778167725,
      "kl": 0.9171549479166666,
      "learning_rate": 1.9999570594853575e-05,
      "loss": 0.0367,
      "reward": 1.1497396255532901,
      "reward_std": 0.26099368068389595,
      "rewards/accuracy_reward": 0.20920139628772935,
      "rewards/format_reward": 0.9405382163822651,
      "step": 78
    },
    {
      "completion_length": 29.979601462682087,
      "epoch": 0.10733808182872287,
      "grad_norm": 5.135621547698975,
      "kl": 1.5565592447916667,
      "learning_rate": 1.9997316318671806e-05,
      "loss": 0.0622,
      "reward": 1.2044271193444729,
      "reward_std": 0.1869426581542939,
      "rewards/accuracy_reward": 0.23090278574575981,
      "rewards/format_reward": 0.9735243221124014,
      "step": 81
    },
    {
      "completion_length": 22.930122137069702,
      "epoch": 0.1113135663408978,
      "grad_norm": 28.183279037475586,
      "kl": 1.3277994791666667,
      "learning_rate": 1.999313025518698e-05,
      "loss": 0.0531,
      "reward": 1.1892361504336197,
      "reward_std": 0.20981760757664839,
      "rewards/accuracy_reward": 0.20876736678959182,
      "rewards/format_reward": 0.9804687661429247,
      "step": 84
    },
    {
      "completion_length": 46.38932470480601,
      "epoch": 0.11528905085307271,
      "grad_norm": 1.771388053894043,
      "kl": 1.13525390625,
      "learning_rate": 1.9987013213274594e-05,
      "loss": 0.0454,
      "reward": 1.2356771156191826,
      "reward_std": 0.18450136513759693,
      "rewards/accuracy_reward": 0.25737847938823205,
      "rewards/format_reward": 0.9782986268401146,
      "step": 87
    },
    {
      "completion_length": 133.1475731531779,
      "epoch": 0.11926453536524764,
      "grad_norm": 0.963828444480896,
      "kl": 1.10107421875,
      "learning_rate": 1.9978966374934255e-05,
      "loss": 0.0441,
      "reward": 1.1979166989525158,
      "reward_std": 0.22738417129342756,
      "rewards/accuracy_reward": 0.2348090335726738,
      "rewards/format_reward": 0.9631076604127884,
      "step": 90
    },
    {
      "completion_length": 95.22396143277486,
      "epoch": 0.12324001987742256,
      "grad_norm": 2.4775350093841553,
      "kl": 1.29541015625,
      "learning_rate": 1.996899129506126e-05,
      "loss": 0.0519,
      "reward": 1.1801215683420498,
      "reward_std": 0.22066468729948005,
      "rewards/accuracy_reward": 0.21831597779722264,
      "rewards/format_reward": 0.9618055733541647,
      "step": 93
    },
    {
      "completion_length": 141.00217274824777,
      "epoch": 0.12721550438959747,
      "grad_norm": 113.83024597167969,
      "kl": 6.85986328125,
      "learning_rate": 1.995708990114615e-05,
      "loss": 0.2747,
      "reward": 1.1006944725910823,
      "reward_std": 0.2825309601612389,
      "rewards/accuracy_reward": 0.16493056050967425,
      "rewards/format_reward": 0.9357639079292616,
      "step": 96
    },
    {
      "completion_length": 166.101132551829,
      "epoch": 0.13119098890177242,
      "grad_norm": 10.326292037963867,
      "kl": 4.069661458333333,
      "learning_rate": 1.994326449290226e-05,
      "loss": 0.1628,
      "reward": 1.0438368394970894,
      "reward_std": 0.32250430978213745,
      "rewards/accuracy_reward": 0.1401909765166541,
      "rewards/format_reward": 0.9036458494762579,
      "step": 99
    },
    {
      "epoch": 0.1325161504058307,
      "eval_completion_length": 159.95536130788375,
      "eval_kl": 3.7168367346938775,
      "eval_loss": 0.16389134526252747,
      "eval_reward": 1.0437925482282833,
      "eval_reward_std": 0.3066673065174599,
      "eval_rewards/accuracy_reward": 0.14200680786553693,
      "eval_rewards/format_reward": 0.9017857349648768,
      "eval_runtime": 416.6475,
      "eval_samples_per_second": 0.238,
      "eval_steps_per_second": 0.012,
      "step": 100
    },
    {
      "completion_length": 146.04948329925537,
      "epoch": 0.13516647341394733,
      "grad_norm": 29.008094787597656,
      "kl": 4.4609375,
      "learning_rate": 1.9927517741821343e-05,
      "loss": 0.1592,
      "reward": 1.0123698189854622,
      "reward_std": 0.279809627099894,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.9082031473517418,
      "step": 102
    },
    {
      "completion_length": 83.48133925596873,
      "epoch": 0.13914195792612225,
      "grad_norm": 2.938828468322754,
      "kl": 2.2904459635416665,
      "learning_rate": 1.990985269065736e-05,
      "loss": 0.0916,
      "reward": 1.0742187835276127,
      "reward_std": 0.23118331842124462,
      "rewards/accuracy_reward": 0.12543403171002865,
      "rewards/format_reward": 0.9487847375373045,
      "step": 105
    },
    {
      "completion_length": 54.888022780418396,
      "epoch": 0.14311744243829716,
      "grad_norm": 2.3945536613464355,
      "kl": 2.4551595052083335,
      "learning_rate": 1.989027275283852e-05,
      "loss": 0.0982,
      "reward": 1.1523437860111396,
      "reward_std": 0.20264656166546047,
      "rewards/accuracy_reward": 0.17621528167122355,
      "rewards/format_reward": 0.976128488779068,
      "step": 108
    },
    {
      "completion_length": 42.01388998826345,
      "epoch": 0.1470929269504721,
      "grad_norm": 2.8216843605041504,
      "kl": 1.4291178385416667,
      "learning_rate": 1.9868781711807705e-05,
      "loss": 0.0572,
      "reward": 1.1814236467083294,
      "reward_std": 0.18004686074952284,
      "rewards/accuracy_reward": 0.1927083395033454,
      "rewards/format_reward": 0.9887152885397276,
      "step": 111
    },
    {
      "completion_length": 37.57769203186035,
      "epoch": 0.15106841146264702,
      "grad_norm": 2.9078152179718018,
      "kl": 1.4965006510416667,
      "learning_rate": 1.9845383720291392e-05,
      "loss": 0.0598,
      "reward": 1.19531253973643,
      "reward_std": 0.16706574785833558,
      "rewards/accuracy_reward": 0.20486111663437137,
      "rewards/format_reward": 0.990451397995154,
      "step": 114
    },
    {
      "completion_length": 46.923178335030876,
      "epoch": 0.15504389597482193,
      "grad_norm": 2.5346879959106445,
      "kl": 1.30078125,
      "learning_rate": 1.9820083299497227e-05,
      "loss": 0.0521,
      "reward": 1.1796875434617202,
      "reward_std": 0.17389631201513112,
      "rewards/accuracy_reward": 0.1901041710516438,
      "rewards/format_reward": 0.9895833420256773,
      "step": 117
    },
    {
      "completion_length": 84.15060981114705,
      "epoch": 0.15901938048699685,
      "grad_norm": 20.683246612548828,
      "kl": 2.1199544270833335,
      "learning_rate": 1.9792885338240375e-05,
      "loss": 0.0848,
      "reward": 1.1553819701075554,
      "reward_std": 0.22444627589235702,
      "rewards/accuracy_reward": 0.1844618112857764,
      "rewards/format_reward": 0.9709201554457346,
      "step": 120
    },
    {
      "completion_length": 107.51779842376709,
      "epoch": 0.16299486499917176,
      "grad_norm": 5.012475967407227,
      "kl": 2.2217610677083335,
      "learning_rate": 1.976379509199886e-05,
      "loss": 0.0888,
      "reward": 1.1514757337669532,
      "reward_std": 0.262029462105905,
      "rewards/accuracy_reward": 0.1970486156642437,
      "rewards/format_reward": 0.9544271069268385,
      "step": 123
    },
    {
      "completion_length": 148.11632299423218,
      "epoch": 0.1669703495113467,
      "grad_norm": 14.528366088867188,
      "kl": 2.2367350260416665,
      "learning_rate": 1.9732818181898046e-05,
      "loss": 0.0895,
      "reward": 1.1228298942248027,
      "reward_std": 0.2808268330991268,
      "rewards/accuracy_reward": 0.1896701450071608,
      "rewards/format_reward": 0.9331597425043583,
      "step": 126
    },
    {
      "completion_length": 84.5121552546819,
      "epoch": 0.17094583402352162,
      "grad_norm": 0.969579815864563,
      "kl": 1.4344889322916667,
      "learning_rate": 1.9699960593624462e-05,
      "loss": 0.0574,
      "reward": 1.15538198625048,
      "reward_std": 0.21577061604087552,
      "rewards/accuracy_reward": 0.18359375500585884,
      "rewards/format_reward": 0.9717882089316845,
      "step": 129
    },
    {
      "completion_length": 72.3042555252711,
      "epoch": 0.17492131853569653,
      "grad_norm": 1.7120805978775024,
      "kl": 1.3595377604166667,
      "learning_rate": 1.966522867626919e-05,
      "loss": 0.0544,
      "reward": 1.1766493457059066,
      "reward_std": 0.20347999944351614,
      "rewards/accuracy_reward": 0.1983507004721711,
      "rewards/format_reward": 0.9782986243565878,
      "step": 132
    },
    {
      "completion_length": 96.82161716620128,
      "epoch": 0.17889680304787145,
      "grad_norm": 7.904327869415283,
      "kl": 1.818359375,
      "learning_rate": 1.962862914110101e-05,
      "loss": 0.0727,
      "reward": 1.2313368394970894,
      "reward_std": 0.2199981181571881,
      "rewards/accuracy_reward": 0.25781250578196097,
      "rewards/format_reward": 0.9735243196288744,
      "step": 135
    },
    {
      "completion_length": 177.80512762069702,
      "epoch": 0.1828722875600464,
      "grad_norm": 2.0114357471466064,
      "kl": 1.666259765625,
      "learning_rate": 1.9590169060269602e-05,
      "loss": 0.0666,
      "reward": 1.1423611491918564,
      "reward_std": 0.26254904045102495,
      "rewards/accuracy_reward": 0.2005208401630322,
      "rewards/format_reward": 0.941840298473835,
      "step": 138
    },
    {
      "completion_length": 90.11675635973613,
      "epoch": 0.1868477720722213,
      "grad_norm": 0.599406898021698,
      "kl": 0.9375813802083334,
      "learning_rate": 1.9549855865438967e-05,
      "loss": 0.0375,
      "reward": 1.205729205161333,
      "reward_std": 0.19089689617976546,
      "rewards/accuracy_reward": 0.22092014454149952,
      "rewards/format_reward": 0.9848090397814909,
      "step": 141
    },
    {
      "completion_length": 56.38889070351919,
      "epoch": 0.19082325658439622,
      "grad_norm": 17.37237548828125,
      "kl": 1.100830078125,
      "learning_rate": 1.9507697346351414e-05,
      "loss": 0.0441,
      "reward": 1.2404514253139496,
      "reward_std": 0.15965971552456418,
      "rewards/accuracy_reward": 0.2469618124111245,
      "rewards/format_reward": 0.9934895895421505,
      "step": 144
    },
    {
      "completion_length": 117.53472594420116,
      "epoch": 0.19479874109657114,
      "grad_norm": 1.0283232927322388,
      "kl": 0.917236328125,
      "learning_rate": 1.9463701649322343e-05,
      "loss": 0.0367,
      "reward": 1.1766493432223797,
      "reward_std": 0.22516770443568626,
      "rewards/accuracy_reward": 0.2135416737291962,
      "rewards/format_reward": 0.9631076554457346,
      "step": 147
    },
    {
      "completion_length": 154.88368586699167,
      "epoch": 0.19877422560874605,
      "grad_norm": 0.9131763577461243,
      "kl": 1.0406901041666667,
      "learning_rate": 1.941787727566613e-05,
      "loss": 0.0416,
      "reward": 1.1358507387340069,
      "reward_std": 0.24575756738583246,
      "rewards/accuracy_reward": 0.18706597783602774,
      "rewards/format_reward": 0.9487847412625948,
      "step": 150
    },
    {
      "completion_length": 137.50000397364298,
      "epoch": 0.202749710120921,
      "grad_norm": 1.9522716999053955,
      "kl": 3.1927897135416665,
      "learning_rate": 1.9370233080053406e-05,
      "loss": 0.1279,
      "reward": 1.1432291989525158,
      "reward_std": 0.25552801430846256,
      "rewards/accuracy_reward": 0.18836806000520787,
      "rewards/format_reward": 0.9548611318071684,
      "step": 153
    },
    {
      "completion_length": 340.70487225055695,
      "epoch": 0.2067251946330959,
      "grad_norm": 338.98333740234375,
      "kl": 10.551839192708334,
      "learning_rate": 1.9320778268800068e-05,
      "loss": 0.4221,
      "reward": 1.0894097586472828,
      "reward_std": 0.32969770890971023,
      "rewards/accuracy_reward": 0.2165798662075152,
      "rewards/format_reward": 0.8728298805654049,
      "step": 156
    },
    {
      "completion_length": 1684.335110982259,
      "epoch": 0.21070067914527082,
      "grad_norm": 25.311864852905273,
      "kl": 25.832682291666668,
      "learning_rate": 1.926952239808833e-05,
      "loss": 1.0325,
      "reward": 0.6332465472320715,
      "reward_std": 0.556972432260712,
      "rewards/accuracy_reward": 0.2395833390376841,
      "rewards/format_reward": 0.39366320706903934,
      "step": 159
    },
    {
      "completion_length": 1924.016092936198,
      "epoch": 0.21467616365744574,
      "grad_norm": 0.9118285179138184,
      "kl": 2.5398763020833335,
      "learning_rate": 1.9216475372120198e-05,
      "loss": 0.1016,
      "reward": 0.5694444632778565,
      "reward_std": 0.5513101244966189,
      "rewards/accuracy_reward": 0.17751736612990499,
      "rewards/format_reward": 0.3919270985449354,
      "step": 162
    },
    {
      "completion_length": 536.2187668085098,
      "epoch": 0.21865164816962068,
      "grad_norm": 0.5543506741523743,
      "kl": 0.8994954427083334,
      "learning_rate": 1.9161647441203648e-05,
      "loss": 0.036,
      "reward": 1.0902778059244156,
      "reward_std": 0.2743187023637195,
      "rewards/accuracy_reward": 0.179253476128603,
      "rewards/format_reward": 0.9110243183871111,
      "step": 165
    },
    {
      "completion_length": 28.863716046015423,
      "epoch": 0.2226271326817956,
      "grad_norm": 0.5757032632827759,
      "kl": 0.918701171875,
      "learning_rate": 1.9105049199771963e-05,
      "loss": 0.0367,
      "reward": 1.2426215708255768,
      "reward_std": 0.16670533292926848,
      "rewards/accuracy_reward": 0.24696181248873472,
      "rewards/format_reward": 0.9956597263614336,
      "step": 168
    },
    {
      "completion_length": 36.32769219080607,
      "epoch": 0.2266026171939705,
      "grad_norm": 0.9013729691505432,
      "kl": 0.907470703125,
      "learning_rate": 1.904669158433658e-05,
      "loss": 0.0363,
      "reward": 1.2196180919806163,
      "reward_std": 0.15937398614672324,
      "rewards/accuracy_reward": 0.2235243107036998,
      "rewards/format_reward": 0.9960937537252903,
      "step": 171
    },
    {
      "completion_length": 118.9145000775655,
      "epoch": 0.23057810170614543,
      "grad_norm": 0.603873610496521,
      "kl": 0.875244140625,
      "learning_rate": 1.8986585871373792e-05,
      "loss": 0.035,
      "reward": 1.19921878973643,
      "reward_std": 0.21174315828830004,
      "rewards/accuracy_reward": 0.22526042260384807,
      "rewards/format_reward": 0.9739583494762579,
      "step": 174
    },
    {
      "completion_length": 154.3828158378601,
      "epoch": 0.23455358621832037,
      "grad_norm": 0.5029460191726685,
      "kl": 0.8998209635416666,
      "learning_rate": 1.8924743675145815e-05,
      "loss": 0.036,
      "reward": 1.1315104526778061,
      "reward_std": 0.291058028737704,
      "rewards/accuracy_reward": 0.2100694509766375,
      "rewards/format_reward": 0.9214409937461218,
      "step": 177
    },
    {
      "completion_length": 27.94401141007741,
      "epoch": 0.23852907073049529,
      "grad_norm": 0.7333383560180664,
      "kl": 1.0400390625,
      "learning_rate": 1.8861176945456542e-05,
      "loss": 0.0416,
      "reward": 1.1788194874922435,
      "reward_std": 0.21482299477793276,
      "rewards/accuracy_reward": 0.20920139516238123,
      "rewards/format_reward": 0.9696180733541647,
      "step": 180
    },
    {
      "completion_length": 24.035590926806133,
      "epoch": 0.2425045552426702,
      "grad_norm": 0.9987295866012573,
      "kl": 1.773681640625,
      "learning_rate": 1.8795897965342473e-05,
      "loss": 0.071,
      "reward": 1.2339410148561,
      "reward_std": 0.18799259358396134,
      "rewards/accuracy_reward": 0.25564236876865226,
      "rewards/format_reward": 0.9782986280818781,
      "step": 183
    },
    {
      "completion_length": 22.082900047302246,
      "epoch": 0.24648003975484511,
      "grad_norm": 1.0223162174224854,
      "kl": 1.2223307291666667,
      "learning_rate": 1.8728919348699285e-05,
      "loss": 0.0489,
      "reward": 1.1970486516753833,
      "reward_std": 0.1605207941805323,
      "rewards/accuracy_reward": 0.21267361818657568,
      "rewards/format_reward": 0.9843750111758709,
      "step": 186
    },
    {
      "completion_length": 22.559462388356526,
      "epoch": 0.25045552426702006,
      "grad_norm": 0.9617392420768738,
      "kl": 1.2871907552083333,
      "learning_rate": 1.866025403784439e-05,
      "loss": 0.0515,
      "reward": 1.253038230041663,
      "reward_std": 0.16818702151067555,
      "rewards/accuracy_reward": 0.26866320287808776,
      "rewards/format_reward": 0.9843750111758709,
      "step": 189
    },
    {
      "completion_length": 74.73828355471294,
      "epoch": 0.25443100877919494,
      "grad_norm": 438.25408935546875,
      "kl": 6.625325520833333,
      "learning_rate": 1.858991530101613e-05,
      "loss": 0.2647,
      "reward": 0.8719618345300356,
      "reward_std": 0.4378834879025817,
      "rewards/accuracy_reward": 0.20963542287548384,
      "rewards/format_reward": 0.6623264097919067,
      "step": 192
    },
    {
      "completion_length": 72.35807486375172,
      "epoch": 0.2584064932913699,
      "grad_norm": 2.040531873703003,
      "kl": 1.7041829427083333,
      "learning_rate": 1.851791672980993e-05,
      "loss": 0.0681,
      "reward": 0.6892361293236414,
      "reward_std": 0.5002113915979862,
      "rewards/accuracy_reward": 0.17578125411334136,
      "rewards/format_reward": 0.5134548768401146,
      "step": 195
    },
    {
      "completion_length": 25.8216153383255,
      "epoch": 0.26238197780354483,
      "grad_norm": 0.6412864923477173,
      "kl": 1.1061197916666667,
      "learning_rate": 1.844427223655199e-05,
      "loss": 0.0443,
      "reward": 1.1362847524384658,
      "reward_std": 0.2772039214614779,
      "rewards/accuracy_reward": 0.2052951459384834,
      "rewards/format_reward": 0.9309896019597849,
      "step": 198
    },
    {
      "epoch": 0.2650323008116614,
      "eval_completion_length": 106.06218176621657,
      "eval_kl": 1.0171274038461537,
      "eval_loss": 0.0414416678249836,
      "eval_reward": 1.2000000339287977,
      "eval_reward_std": 0.21003777883373775,
      "eval_rewards/accuracy_reward": 0.24038462171760888,
      "eval_rewards/format_reward": 0.9596154038722698,
      "eval_runtime": 392.0553,
      "eval_samples_per_second": 0.253,
      "eval_steps_per_second": 0.013,
      "step": 200
    },
    {
      "completion_length": 153.56380558013916,
      "epoch": 0.2663574623157197,
      "grad_norm": 0.6983628869056702,
      "kl": 1.030517578125,
      "learning_rate": 1.8368996051610987e-05,
      "loss": 0.0402,
      "reward": 1.1731771118938923,
      "reward_std": 0.2824738877825439,
      "rewards/accuracy_reward": 0.2369791748933494,
      "rewards/format_reward": 0.9361979365348816,
      "step": 201
    },
    {
      "completion_length": 88.2196215391159,
      "epoch": 0.27033294682789466,
      "grad_norm": 0.5030940771102905,
      "kl": 1.013427734375,
      "learning_rate": 1.8292102720648333e-05,
      "loss": 0.0406,
      "reward": 1.1948785136143367,
      "reward_std": 0.18432624839867154,
      "rewards/accuracy_reward": 0.2248263950459659,
      "rewards/format_reward": 0.9700521007180214,
      "step": 204
    },
    {
      "completion_length": 59.0355920791626,
      "epoch": 0.27430843134006955,
      "grad_norm": 0.6660766005516052,
      "kl": 1.0997721354166667,
      "learning_rate": 1.821360710180753e-05,
      "loss": 0.044,
      "reward": 1.2152778208255768,
      "reward_std": 0.16302509784388045,
      "rewards/accuracy_reward": 0.2326388961325089,
      "rewards/format_reward": 0.9826389054457346,
      "step": 207
    },
    {
      "completion_length": 136.2734409570694,
      "epoch": 0.2782839158522445,
      "grad_norm": 12.398130416870117,
      "kl": 1.268310546875,
      "learning_rate": 1.8133524362843105e-05,
      "loss": 0.0507,
      "reward": 1.1844618419806163,
      "reward_std": 0.2869204127540191,
      "rewards/accuracy_reward": 0.24218750729536018,
      "rewards/format_reward": 0.9422743258376917,
      "step": 210
    },
    {
      "completion_length": 70.42100850741069,
      "epoch": 0.28225940036441943,
      "grad_norm": 0.6272424459457397,
      "kl": 1.75341796875,
      "learning_rate": 1.8051869978189732e-05,
      "loss": 0.0702,
      "reward": 1.1562500409781933,
      "reward_std": 0.2056693274838229,
      "rewards/accuracy_reward": 0.18315972775841752,
      "rewards/format_reward": 0.9730902922650179,
      "step": 213
    },
    {
      "completion_length": 73.97873449325562,
      "epoch": 0.2862348848765943,
      "grad_norm": 0.8462525010108948,
      "kl": 1.53515625,
      "learning_rate": 1.7968659725972113e-05,
      "loss": 0.0614,
      "reward": 1.2317708693444729,
      "reward_std": 0.20991144888103008,
      "rewards/accuracy_reward": 0.25130209074510884,
      "rewards/format_reward": 0.9804687649011612,
      "step": 216
    },
    {
      "completion_length": 253.28212424119315,
      "epoch": 0.29021036938876926,
      "grad_norm": 1.3421990871429443,
      "kl": 1.69873046875,
      "learning_rate": 1.7883909684956142e-05,
      "loss": 0.0679,
      "reward": 1.194010455161333,
      "reward_std": 0.23462056911860904,
      "rewards/accuracy_reward": 0.22092014512357613,
      "rewards/format_reward": 0.9730902959903082,
      "step": 219
    },
    {
      "completion_length": 470.5165026982625,
      "epoch": 0.2941858539009442,
      "grad_norm": 1.0831785202026367,
      "kl": 1.51318359375,
      "learning_rate": 1.7797636231442018e-05,
      "loss": 0.0605,
      "reward": 1.1184896218279998,
      "reward_std": 0.3129944964312017,
      "rewards/accuracy_reward": 0.18750000543271503,
      "rewards/format_reward": 0.9309896032015482,
      "step": 222
    },
    {
      "completion_length": 236.49306138356528,
      "epoch": 0.2981613384131191,
      "grad_norm": 0.5017532706260681,
      "kl": 1.0579427083333333,
      "learning_rate": 1.770985603609982e-05,
      "loss": 0.0423,
      "reward": 1.1736111516753833,
      "reward_std": 0.22954328202952942,
      "rewards/accuracy_reward": 0.2083333401630322,
      "rewards/format_reward": 0.9652777972320715,
      "step": 225
    },
    {
      "completion_length": 370.95573965708417,
      "epoch": 0.30213682292529404,
      "grad_norm": 1.8773243427276611,
      "kl": 0.7275390625,
      "learning_rate": 1.762058606074825e-05,
      "loss": 0.0291,
      "reward": 1.1892361417412758,
      "reward_std": 0.2853658755775541,
      "rewards/accuracy_reward": 0.2526041748545443,
      "rewards/format_reward": 0.9366319626569748,
      "step": 228
    },
    {
      "completion_length": 749.3316179911295,
      "epoch": 0.3061123074374689,
      "grad_norm": 31.57447624206543,
      "kl": 1613.3247884114583,
      "learning_rate": 1.7529843555077066e-05,
      "loss": 64.5574,
      "reward": 0.9032118283212185,
      "reward_std": 0.5264206398278475,
      "rewards/accuracy_reward": 0.1909722271375358,
      "rewards/format_reward": 0.7122396056850752,
      "step": 231
    },
    {
      "completion_length": 675.3758859634399,
      "epoch": 0.31008779194964387,
      "grad_norm": 5.697227954864502,
      "kl": 1.6119791666666667,
      "learning_rate": 1.743764605331392e-05,
      "loss": 0.0645,
      "reward": 0.9205729439854622,
      "reward_std": 0.511370474472642,
      "rewards/accuracy_reward": 0.21093750609240183,
      "rewards/format_reward": 0.7096354346722364,
      "step": 234
    },
    {
      "completion_length": 132.1358541647593,
      "epoch": 0.3140632764618188,
      "grad_norm": 11.240227699279785,
      "kl": 1.1758626302083333,
      "learning_rate": 1.734401137083623e-05,
      "loss": 0.047,
      "reward": 1.1697048942248027,
      "reward_std": 0.234877454660212,
      "rewards/accuracy_reward": 0.20920139295049012,
      "rewards/format_reward": 0.9605034875373045,
      "step": 237
    },
    {
      "completion_length": 65.88151196638744,
      "epoch": 0.3180387609739937,
      "grad_norm": 1.4037131071090698,
      "kl": 1.52587890625,
      "learning_rate": 1.7248957600728664e-05,
      "loss": 0.0611,
      "reward": 1.2100694850087166,
      "reward_std": 0.17585339567934474,
      "rewards/accuracy_reward": 0.2248263950071608,
      "rewards/format_reward": 0.9852430634200573,
      "step": 240
    },
    {
      "completion_length": 62.16363008817037,
      "epoch": 0.32201424548616864,
      "grad_norm": 1.2037297487258911,
      "kl": 2.00048828125,
      "learning_rate": 1.7152503110287048e-05,
      "loss": 0.0802,
      "reward": 1.21484378973643,
      "reward_std": 0.14739138268244764,
      "rewards/accuracy_reward": 0.22265625558793545,
      "rewards/format_reward": 0.9921875024835268,
      "step": 243
    },
    {
      "completion_length": 125.61762539545695,
      "epoch": 0.3259897299983435,
      "grad_norm": 101.92506408691406,
      "kl": 0.934326171875,
      "learning_rate": 1.7054666537469213e-05,
      "loss": 0.0374,
      "reward": 1.1098090633749962,
      "reward_std": 0.30111823774253327,
      "rewards/accuracy_reward": 0.2152777845816066,
      "rewards/format_reward": 0.8945312686264515,
      "step": 246
    },
    {
      "completion_length": 121.29817994435628,
      "epoch": 0.32996521451051847,
      "grad_norm": 34.78390884399414,
      "kl": 1.1844889322916667,
      "learning_rate": 1.6955466787293574e-05,
      "loss": 0.0473,
      "reward": 1.1397569874922435,
      "reward_std": 0.25541831855662167,
      "rewards/accuracy_reward": 0.19444444961845875,
      "rewards/format_reward": 0.9453125186264515,
      "step": 249
    },
    {
      "completion_length": 187.08290481567383,
      "epoch": 0.3339406990226934,
      "grad_norm": 9.161247253417969,
      "kl": 1.1195475260416667,
      "learning_rate": 1.6854923028186112e-05,
      "loss": 0.0448,
      "reward": 1.174479205161333,
      "reward_std": 0.2551775785783927,
      "rewards/accuracy_reward": 0.226128477564392,
      "rewards/format_reward": 0.9483507138987383,
      "step": 252
    },
    {
      "completion_length": 427.2378609975179,
      "epoch": 0.3379161835348683,
      "grad_norm": 4.801308631896973,
      "kl": 0.938720703125,
      "learning_rate": 1.6753054688276443e-05,
      "loss": 0.0376,
      "reward": 1.0308160049219925,
      "reward_std": 0.4219017767657836,
      "rewards/accuracy_reward": 0.18880208985259136,
      "rewards/format_reward": 0.8420139091710249,
      "step": 255
    },
    {
      "completion_length": 529.5642477671305,
      "epoch": 0.34189166804704324,
      "grad_norm": 24.645631790161133,
      "kl": 0.8575032552083334,
      "learning_rate": 1.6649881451643706e-05,
      "loss": 0.0343,
      "reward": 0.9887153046826521,
      "reward_std": 0.4318722311096887,
      "rewards/accuracy_reward": 0.16449653268015632,
      "rewards/format_reward": 0.8242187686264515,
      "step": 258
    },
    {
      "completion_length": 635.6575686136881,
      "epoch": 0.3458671525592181,
      "grad_norm": 16.547225952148438,
      "kl": 0.8201497395833334,
      "learning_rate": 1.6545423254513003e-05,
      "loss": 0.0328,
      "reward": 0.9114583544433117,
      "reward_std": 0.49249805447955924,
      "rewards/accuracy_reward": 0.15451389361017695,
      "rewards/format_reward": 0.7569444626569748,
      "step": 261
    },
    {
      "completion_length": 670.922758102417,
      "epoch": 0.34984263707139307,
      "grad_norm": 3.734528064727783,
      "kl": 28.136962890625,
      "learning_rate": 1.6439700281403113e-05,
      "loss": 1.13,
      "reward": 0.8875868320465088,
      "reward_std": 0.5033875486503044,
      "rewards/accuracy_reward": 0.15581597620621324,
      "rewards/format_reward": 0.7317708556850752,
      "step": 264
    },
    {
      "completion_length": 493.13022168477374,
      "epoch": 0.353818121583568,
      "grad_norm": 1.4124517440795898,
      "kl": 0.744140625,
      "learning_rate": 1.6332732961226214e-05,
      "loss": 0.0298,
      "reward": 1.003472238779068,
      "reward_std": 0.37580153982465464,
      "rewards/accuracy_reward": 0.16710069950204343,
      "rewards/format_reward": 0.8363715509573618,
      "step": 267
    },
    {
      "completion_length": 216.89670626322427,
      "epoch": 0.3577936060957429,
      "grad_norm": 16.25065040588379,
      "kl": 0.7809244791666666,
      "learning_rate": 1.6224541963340392e-05,
      "loss": 0.0312,
      "reward": 1.1371528195838134,
      "reward_std": 0.24574858765117824,
      "rewards/accuracy_reward": 0.18706597686590007,
      "rewards/format_reward": 0.950086829562982,
      "step": 270
    },
    {
      "completion_length": 177.61805963516235,
      "epoch": 0.36176909060791784,
      "grad_norm": 0.2947433888912201,
      "kl": 0.6514485677083334,
      "learning_rate": 1.6115148193555708e-05,
      "loss": 0.0261,
      "reward": 1.1371528146167595,
      "reward_std": 0.216966389445588,
      "rewards/accuracy_reward": 0.1727430597335721,
      "rewards/format_reward": 0.9644097400208315,
      "step": 273
    },
    {
      "completion_length": 166.2851603825887,
      "epoch": 0.3657445751200928,
      "grad_norm": 0.2939068377017975,
      "kl": 0.6795247395833334,
      "learning_rate": 1.6004572790094535e-05,
      "loss": 0.0272,
      "reward": 1.1618923991918564,
      "reward_std": 0.20391751010902226,
      "rewards/accuracy_reward": 0.1848958384944126,
      "rewards/format_reward": 0.9769965422650179,
      "step": 276
    },
    {
      "completion_length": 261.6618987719218,
      "epoch": 0.3697200596322677,
      "grad_norm": 0.29132047295570374,
      "kl": 0.6346842447916666,
      "learning_rate": 1.5892837119507017e-05,
      "loss": 0.0254,
      "reward": 1.1731771218279998,
      "reward_std": 0.2886992564114432,
      "rewards/accuracy_reward": 0.22005208965856582,
      "rewards/format_reward": 0.953125017384688,
      "step": 279
    },
    {
      "completion_length": 336.81771659851074,
      "epoch": 0.3736955441444426,
      "grad_norm": 0.3138696551322937,
      "kl": 0.5843098958333334,
      "learning_rate": 1.5779962772542404e-05,
      "loss": 0.0234,
      "reward": 1.1588542101283867,
      "reward_std": 0.3115967277747889,
      "rewards/accuracy_reward": 0.22482639298929522,
      "rewards/format_reward": 0.9340277997155985,
      "step": 282
    },
    {
      "completion_length": 331.4518330891927,
      "epoch": 0.3776710286566175,
      "grad_norm": 0.2659892141819,
      "kl": 0.5912679036458334,
      "learning_rate": 1.5665971559977035e-05,
      "loss": 0.0237,
      "reward": 1.1488715608914692,
      "reward_std": 0.29840323934331536,
      "rewards/accuracy_reward": 0.216145838998879,
      "rewards/format_reward": 0.9327257126569748,
      "step": 285
    },
    {
      "completion_length": 239.2026980717977,
      "epoch": 0.38164651316879245,
      "grad_norm": 0.25000807642936707,
      "kl": 0.65576171875,
      "learning_rate": 1.5550885508399857e-05,
      "loss": 0.0262,
      "reward": 1.2243924078842003,
      "reward_std": 0.23120340146124363,
      "rewards/accuracy_reward": 0.26302084152121097,
      "rewards/format_reward": 0.9613715447485447,
      "step": 288
    },
    {
      "completion_length": 261.2309099833171,
      "epoch": 0.3856219976809674,
      "grad_norm": 0.3258998692035675,
      "kl": 0.6355794270833334,
      "learning_rate": 1.5434726855956207e-05,
      "loss": 0.0254,
      "reward": 1.1762153195838134,
      "reward_std": 0.2527556049947937,
      "rewards/accuracy_reward": 0.22656250465661287,
      "rewards/format_reward": 0.949652798473835,
      "step": 291
    },
    {
      "completion_length": 307.1632038752238,
      "epoch": 0.3895974821931423,
      "grad_norm": 0.27683761715888977,
      "kl": 0.6504720052083334,
      "learning_rate": 1.5317518048050698e-05,
      "loss": 0.026,
      "reward": 1.1840278108914692,
      "reward_std": 0.3266296978108585,
      "rewards/accuracy_reward": 0.25868056357527774,
      "rewards/format_reward": 0.9253472412625948,
      "step": 294
    },
    {
      "completion_length": 227.35286966959634,
      "epoch": 0.3935729667053172,
      "grad_norm": 0.30159127712249756,
      "kl": 0.688720703125,
      "learning_rate": 1.5199281733010115e-05,
      "loss": 0.0275,
      "reward": 1.1831597660978634,
      "reward_std": 0.2784773572348058,
      "rewards/accuracy_reward": 0.23350695171393454,
      "rewards/format_reward": 0.9496528009573618,
      "step": 297
    },
    {
      "completion_length": 143.06510861714682,
      "epoch": 0.3975484512174921,
      "grad_norm": 0.2892165780067444,
      "kl": 0.68359375,
      "learning_rate": 1.5080040757707045e-05,
      "loss": 0.0274,
      "reward": 1.2187500310440857,
      "reward_std": 0.2116301084558169,
      "rewards/accuracy_reward": 0.24522570221840093,
      "rewards/format_reward": 0.9735243245959282,
      "step": 300
    },
    {
      "epoch": 0.3975484512174921,
      "eval_completion_length": 144.66667048136392,
      "eval_kl": 0.6736505681818182,
      "eval_loss": 0.026671981438994408,
      "eval_reward": 1.2436869072191643,
      "eval_reward_std": 0.1965812866886457,
      "eval_rewards/accuracy_reward": 0.2651515253113978,
      "eval_rewards/format_reward": 0.9785353685870315,
      "eval_runtime": 306.7676,
      "eval_samples_per_second": 0.323,
      "eval_steps_per_second": 0.016,
      "step": 300
    },
    {
      "completion_length": 174.81424236297607,
      "epoch": 0.40152393572966705,
      "grad_norm": 0.2668885588645935,
      "kl": 0.658447265625,
      "learning_rate": 1.4959818163145174e-05,
      "loss": 0.0263,
      "reward": 1.1870660111308098,
      "reward_std": 0.2152603679957489,
      "rewards/accuracy_reward": 0.22265625613120696,
      "rewards/format_reward": 0.9644097412625948,
      "step": 303
    },
    {
      "completion_length": 243.1388953526815,
      "epoch": 0.405499420241842,
      "grad_norm": 0.29364725947380066,
      "kl": 0.6541341145833334,
      "learning_rate": 1.4838637180007048e-05,
      "loss": 0.0262,
      "reward": 1.19227434694767,
      "reward_std": 0.3106319972624381,
      "rewards/accuracy_reward": 0.25911459024064243,
      "rewards/format_reward": 0.9331597425043583,
      "step": 306
    },
    {
      "completion_length": 272.5533922513326,
      "epoch": 0.4094749047540169,
      "grad_norm": 0.8436369299888611,
      "kl": 0.6695149739583334,
      "learning_rate": 1.4716521224165192e-05,
      "loss": 0.0268,
      "reward": 1.1753472536802292,
      "reward_std": 0.3257710024093588,
      "rewards/accuracy_reward": 0.25520834090032923,
      "rewards/format_reward": 0.9201389091710249,
      "step": 309
    },
    {
      "completion_length": 177.79601097106934,
      "epoch": 0.4134503892661918,
      "grad_norm": 0.4324951469898224,
      "kl": 0.7711588541666666,
      "learning_rate": 1.4593493892157473e-05,
      "loss": 0.0308,
      "reward": 1.2126736467083294,
      "reward_std": 0.2525833969314893,
      "rewards/accuracy_reward": 0.25607639644294977,
      "rewards/format_reward": 0.9565972425043583,
      "step": 312
    },
    {
      "completion_length": 131.17882307370505,
      "epoch": 0.41742587377836676,
      "grad_norm": 0.4101894497871399,
      "kl": 0.8329264322916666,
      "learning_rate": 1.4469578956627497e-05,
      "loss": 0.0333,
      "reward": 1.2222222561637561,
      "reward_std": 0.2416619355790317,
      "rewards/accuracy_reward": 0.2569444514811039,
      "rewards/format_reward": 0.9652777935067812,
      "step": 315
    },
    {
      "completion_length": 166.76866793632507,
      "epoch": 0.42140135829054165,
      "grad_norm": 0.4412620961666107,
      "kl": 0.802490234375,
      "learning_rate": 1.4344800361731028e-05,
      "loss": 0.0321,
      "reward": 1.2000868308047454,
      "reward_std": 0.25887442535410327,
      "rewards/accuracy_reward": 0.2456597302419444,
      "rewards/format_reward": 0.9544271069268385,
      "step": 318
    },
    {
      "completion_length": 291.4305648803711,
      "epoch": 0.4253768428027166,
      "grad_norm": 1.2379664182662964,
      "kl": 1.076171875,
      "learning_rate": 1.4219182218509228e-05,
      "loss": 0.043,
      "reward": 1.188368085771799,
      "reward_std": 0.3411911290604621,
      "rewards/accuracy_reward": 0.2738715353965138,
      "rewards/format_reward": 0.9144965472320715,
      "step": 321
    },
    {
      "completion_length": 224.42535320917764,
      "epoch": 0.4293523273148915,
      "grad_norm": 0.3620770275592804,
      "kl": 0.82763671875,
      "learning_rate": 1.4092748800229684e-05,
      "loss": 0.0331,
      "reward": 1.1501736504336197,
      "reward_std": 0.277087006252259,
      "rewards/accuracy_reward": 0.21137153512487808,
      "rewards/format_reward": 0.9388021032015482,
      "step": 324
    },
    {
      "completion_length": 125.78515982627869,
      "epoch": 0.4333278118270664,
      "grad_norm": 0.44564080238342285,
      "kl": 0.8855794270833334,
      "learning_rate": 1.3965524537696048e-05,
      "loss": 0.0354,
      "reward": 1.2070312934617202,
      "reward_std": 0.2261218437924981,
      "rewards/accuracy_reward": 0.2408854247769341,
      "rewards/format_reward": 0.9661458519597849,
      "step": 327
    },
    {
      "completion_length": 120.45356305440266,
      "epoch": 0.43730329633924137,
      "grad_norm": 0.5684562921524048,
      "kl": 0.8846842447916666,
      "learning_rate": 1.3837534014527292e-05,
      "loss": 0.0354,
      "reward": 1.1996528121332328,
      "reward_std": 0.21545591143270335,
      "rewards/accuracy_reward": 0.22482639430866888,
      "rewards/format_reward": 0.9748264066874981,
      "step": 330
    },
    {
      "completion_length": 163.12413569291434,
      "epoch": 0.44127878085141625,
      "grad_norm": 0.4309135973453522,
      "kl": 0.853515625,
      "learning_rate": 1.370880196240736e-05,
      "loss": 0.0341,
      "reward": 1.1966146243115265,
      "reward_std": 0.20711354352533817,
      "rewards/accuracy_reward": 0.22829861768210927,
      "rewards/format_reward": 0.9683159912625948,
      "step": 333
    },
    {
      "completion_length": 237.89236768086752,
      "epoch": 0.4452542653635912,
      "grad_norm": 0.4566245377063751,
      "kl": 0.8661295572916666,
      "learning_rate": 1.3579353256306287e-05,
      "loss": 0.0347,
      "reward": 1.2013889253139496,
      "reward_std": 0.3096516130802532,
      "rewards/accuracy_reward": 0.26953125911920023,
      "rewards/format_reward": 0.9318576566874981,
      "step": 336
    },
    {
      "completion_length": 165.7669305006663,
      "epoch": 0.4492297498757661,
      "grad_norm": 0.354465126991272,
      "kl": 0.865966796875,
      "learning_rate": 1.3449212909673564e-05,
      "loss": 0.0346,
      "reward": 1.2018229539195697,
      "reward_std": 0.25834672797160846,
      "rewards/accuracy_reward": 0.25217014582206804,
      "rewards/format_reward": 0.9496528009573618,
      "step": 339
    },
    {
      "completion_length": 142.55990060170492,
      "epoch": 0.453205234387941,
      "grad_norm": 0.3962474763393402,
      "kl": 0.8601888020833334,
      "learning_rate": 1.3318406069604794e-05,
      "loss": 0.0344,
      "reward": 1.2521701666216056,
      "reward_std": 0.23758238561761877,
      "rewards/accuracy_reward": 0.2947048688074574,
      "rewards/format_reward": 0.9574652972320715,
      "step": 342
    },
    {
      "completion_length": 115.50304126739502,
      "epoch": 0.45718071890011597,
      "grad_norm": 0.5837423205375671,
      "kl": 0.8826497395833334,
      "learning_rate": 1.3186958011982502e-05,
      "loss": 0.0353,
      "reward": 1.2539062947034836,
      "reward_std": 0.22960447745087245,
      "rewards/accuracy_reward": 0.28862847849571455,
      "rewards/format_reward": 0.9652777935067812,
      "step": 345
    },
    {
      "completion_length": 131.01606249809265,
      "epoch": 0.46115620341229085,
      "grad_norm": 0.34627339243888855,
      "kl": 0.8831380208333334,
      "learning_rate": 1.3054894136592052e-05,
      "loss": 0.0353,
      "reward": 1.2656250384946663,
      "reward_std": 0.2167885024100542,
      "rewards/accuracy_reward": 0.303385425824672,
      "rewards/format_reward": 0.9622396032015482,
      "step": 348
    },
    {
      "completion_length": 161.92491857210794,
      "epoch": 0.4651316879244658,
      "grad_norm": 0.5599522590637207,
      "kl": 0.927490234375,
      "learning_rate": 1.2922239962213639e-05,
      "loss": 0.0371,
      "reward": 1.2330729564030964,
      "reward_std": 0.25398758659139276,
      "rewards/accuracy_reward": 0.28038195144229877,
      "rewards/format_reward": 0.9526909900208315,
      "step": 351
    },
    {
      "completion_length": 177.92231432596842,
      "epoch": 0.46910717243664074,
      "grad_norm": 0.40600305795669556,
      "kl": 0.9139811197916666,
      "learning_rate": 1.2789021121691273e-05,
      "loss": 0.0366,
      "reward": 1.2495660111308098,
      "reward_std": 0.2690324760042131,
      "rewards/accuracy_reward": 0.3042534824150304,
      "rewards/format_reward": 0.9453125211099783,
      "step": 354
    },
    {
      "completion_length": 172.3125053246816,
      "epoch": 0.4730826569488156,
      "grad_norm": 0.3264493942260742,
      "kl": 0.9281412760416666,
      "learning_rate": 1.2655263356979748e-05,
      "loss": 0.0371,
      "reward": 1.2217882325251896,
      "reward_std": 0.23972468955131868,
      "rewards/accuracy_reward": 0.2669270914436008,
      "rewards/format_reward": 0.9548611293236414,
      "step": 357
    },
    {
      "completion_length": 184.01345992088318,
      "epoch": 0.47705814146099057,
      "grad_norm": 0.45698466897010803,
      "kl": 0.9051920572916666,
      "learning_rate": 1.252099251417048e-05,
      "loss": 0.0362,
      "reward": 1.2009548917412758,
      "reward_std": 0.2333919748198241,
      "rewards/accuracy_reward": 0.2500000069461142,
      "rewards/format_reward": 0.9509548830489317,
      "step": 360
    },
    {
      "completion_length": 144.6562541325887,
      "epoch": 0.48103362597316546,
      "grad_norm": 0.4349970519542694,
      "kl": 0.9092610677083334,
      "learning_rate": 1.2386234538497281e-05,
      "loss": 0.0364,
      "reward": 1.2122396243115265,
      "reward_std": 0.20104571796643236,
      "rewards/accuracy_reward": 0.24696181206187853,
      "rewards/format_reward": 0.965277798473835,
      "step": 363
    },
    {
      "completion_length": 191.15668980280557,
      "epoch": 0.4850091104853404,
      "grad_norm": 0.30329596996307373,
      "kl": 0.88134765625,
      "learning_rate": 1.2251015469322915e-05,
      "loss": 0.0352,
      "reward": 1.1736111516753833,
      "reward_std": 0.22162295792562267,
      "rewards/accuracy_reward": 0.21918403388311467,
      "rewards/format_reward": 0.9544271032015482,
      "step": 366
    },
    {
      "completion_length": 264.59766403834027,
      "epoch": 0.48898459499751534,
      "grad_norm": 0.29752317070961,
      "kl": 0.850341796875,
      "learning_rate": 1.2115361435107531e-05,
      "loss": 0.034,
      "reward": 1.1987847660978634,
      "reward_std": 0.23697279867095253,
      "rewards/accuracy_reward": 0.25217014578326297,
      "rewards/format_reward": 0.9466146007180214,
      "step": 369
    },
    {
      "completion_length": 265.8745719591777,
      "epoch": 0.49296007950969023,
      "grad_norm": 0.32228928804397583,
      "kl": 0.832763671875,
      "learning_rate": 1.1979298648359823e-05,
      "loss": 0.0333,
      "reward": 1.1922743419806163,
      "reward_std": 0.23731949056188265,
      "rewards/accuracy_reward": 0.24652778469802192,
      "rewards/format_reward": 0.9457465497155985,
      "step": 372
    },
    {
      "completion_length": 225.2148496309916,
      "epoch": 0.4969355640218652,
      "grad_norm": 0.3521800637245178,
      "kl": 0.93212890625,
      "learning_rate": 1.1842853400571972e-05,
      "loss": 0.0373,
      "reward": 1.17578128973643,
      "reward_std": 0.23853578185662627,
      "rewards/accuracy_reward": 0.22482639566684762,
      "rewards/format_reward": 0.9509548818071684,
      "step": 375
    },
    {
      "completion_length": 214.73481448491415,
      "epoch": 0.5009110485340401,
      "grad_norm": 0.30461886525154114,
      "kl": 0.8719075520833334,
      "learning_rate": 1.1706052057139335e-05,
      "loss": 0.0349,
      "reward": 1.2374132238328457,
      "reward_std": 0.26819697495860356,
      "rewards/accuracy_reward": 0.2986111195059493,
      "rewards/format_reward": 0.9388021019597849,
      "step": 378
    },
    {
      "completion_length": 166.19488294919333,
      "epoch": 0.504886533046215,
      "grad_norm": 0.3792967200279236,
      "kl": 0.9239908854166666,
      "learning_rate": 1.1568921052265835e-05,
      "loss": 0.037,
      "reward": 1.2187500335276127,
      "reward_std": 0.23409798694774508,
      "rewards/accuracy_reward": 0.2708333415600161,
      "rewards/format_reward": 0.9479166840513548,
      "step": 381
    },
    {
      "completion_length": 150.8567752043406,
      "epoch": 0.5088620175583899,
      "grad_norm": 0.592704176902771,
      "kl": 0.9227701822916666,
      "learning_rate": 1.1431486883856082e-05,
      "loss": 0.0369,
      "reward": 1.2452257374922435,
      "reward_std": 0.22722656147864959,
      "rewards/accuracy_reward": 0.2934027862502262,
      "rewards/format_reward": 0.9518229340513548,
      "step": 384
    },
    {
      "completion_length": 158.66797320048013,
      "epoch": 0.5128375020705649,
      "grad_norm": 0.3592934310436249,
      "kl": 0.9186197916666666,
      "learning_rate": 1.1293776108395136e-05,
      "loss": 0.0367,
      "reward": 1.2261285136143367,
      "reward_std": 0.22368450198943415,
      "rewards/accuracy_reward": 0.27039931307081133,
      "rewards/format_reward": 0.9557291840513548,
      "step": 387
    },
    {
      "completion_length": 185.46788756052652,
      "epoch": 0.5168129865827398,
      "grad_norm": 0.40210244059562683,
      "kl": 0.9088541666666666,
      "learning_rate": 1.115581533581701e-05,
      "loss": 0.0363,
      "reward": 1.215711849431197,
      "reward_std": 0.24651615732970336,
      "rewards/accuracy_reward": 0.26779514624892425,
      "rewards/format_reward": 0.9479166890184084,
      "step": 390
    },
    {
      "completion_length": 170.30729579925537,
      "epoch": 0.5207884710949147,
      "grad_norm": 0.3423998951911926,
      "kl": 0.9156901041666666,
      "learning_rate": 1.1017631224362803e-05,
      "loss": 0.0366,
      "reward": 1.2191840646167595,
      "reward_std": 0.23356711654923856,
      "rewards/accuracy_reward": 0.26562500702372444,
      "rewards/format_reward": 0.9535590472320715,
      "step": 393
    },
    {
      "completion_length": 163.50651590029398,
      "epoch": 0.5247639556070897,
      "grad_norm": 0.4365287721157074,
      "kl": 0.9022623697916666,
      "learning_rate": 1.0879250475429523e-05,
      "loss": 0.0361,
      "reward": 1.2296007374922435,
      "reward_std": 0.21208147254462043,
      "rewards/accuracy_reward": 0.27083334194806713,
      "rewards/format_reward": 0.9587673805654049,
      "step": 396
    },
    {
      "completion_length": 152.78342461585999,
      "epoch": 0.5287394401192645,
      "grad_norm": 0.38972899317741394,
      "kl": 0.9129231770833334,
      "learning_rate": 1.0740699828410546e-05,
      "loss": 0.0365,
      "reward": 1.2404514389733474,
      "reward_std": 0.21568205665486553,
      "rewards/accuracy_reward": 0.2734375073729704,
      "rewards/format_reward": 0.9670139054457346,
      "step": 399
    },
    {
      "epoch": 0.5300646016233228,
      "eval_completion_length": 209.7181176944655,
      "eval_kl": 0.892936862244898,
      "eval_loss": 0.035242632031440735,
      "eval_reward": 1.215136090103461,
      "eval_reward_std": 0.25851106210326663,
      "eval_rewards/accuracy_reward": 0.27763606341821806,
      "eval_rewards/format_reward": 0.9375000194627412,
      "eval_runtime": 446.558,
      "eval_samples_per_second": 0.222,
      "eval_steps_per_second": 0.011,
      "step": 400
    },
    {
      "completion_length": 211.7161521911621,
      "epoch": 0.5327149246314394,
      "grad_norm": 0.42194342613220215,
      "kl": 0.86279296875,
      "learning_rate": 1.060200605552876e-05,
      "loss": 0.0351,
      "reward": 1.2447917014360428,
      "reward_std": 0.2783205214655027,
      "rewards/accuracy_reward": 0.30598959198687226,
      "rewards/format_reward": 0.9388021044433117,
      "step": 402
    },
    {
      "completion_length": 209.05816570917764,
      "epoch": 0.5366904091436144,
      "grad_norm": 0.3273554742336273,
      "kl": 0.8595377604166666,
      "learning_rate": 1.0463195956663339e-05,
      "loss": 0.0344,
      "reward": 1.2074653158585231,
      "reward_std": 0.26641134327898425,
      "rewards/accuracy_reward": 0.2643229237680013,
      "rewards/format_reward": 0.9431423793236414,
      "step": 405
    },
    {
      "completion_length": 198.80252281824747,
      "epoch": 0.5406658936557893,
      "grad_norm": 0.6081684827804565,
      "kl": 0.8997395833333334,
      "learning_rate": 1.0324296354171209e-05,
      "loss": 0.036,
      "reward": 1.2209201728304226,
      "reward_std": 0.26526342386690277,
      "rewards/accuracy_reward": 0.2712673705148821,
      "rewards/format_reward": 0.949652798473835,
      "step": 408
    },
    {
      "completion_length": 189.4709266026815,
      "epoch": 0.5446413781679642,
      "grad_norm": 0.3419695794582367,
      "kl": 0.9253743489583334,
      "learning_rate": 1.0185334087704124e-05,
      "loss": 0.037,
      "reward": 1.252604205161333,
      "reward_std": 0.27628890207658213,
      "rewards/accuracy_reward": 0.305121536909913,
      "rewards/format_reward": 0.9474826554457346,
      "step": 411
    },
    {
      "completion_length": 208.34549283981323,
      "epoch": 0.5486168626801391,
      "grad_norm": 0.2845761775970459,
      "kl": 0.9347330729166666,
      "learning_rate": 1.0046336009022435e-05,
      "loss": 0.0374,
      "reward": 1.2300347636143367,
      "reward_std": 0.2701789590064436,
      "rewards/accuracy_reward": 0.2834201465981702,
      "rewards/format_reward": 0.9466146069268385,
      "step": 414
    },
    {
      "completion_length": 176.7278701464335,
      "epoch": 0.5525923471923141,
      "grad_norm": 0.30186229944229126,
      "kl": 0.9585774739583334,
      "learning_rate": 9.907328976806512e-06,
      "loss": 0.0384,
      "reward": 1.267361145466566,
      "reward_std": 0.25099668038698536,
      "rewards/accuracy_reward": 0.3120659809404363,
      "rewards/format_reward": 0.9552951554457346,
      "step": 417
    },
    {
      "completion_length": 181.4904566605886,
      "epoch": 0.556567831704489,
      "grad_norm": 0.31573575735092163,
      "kl": 0.9427083333333334,
      "learning_rate": 9.768339851466818e-06,
      "loss": 0.0377,
      "reward": 1.2165799054006736,
      "reward_std": 0.23861535429023206,
      "rewards/accuracy_reward": 0.2586805630320062,
      "rewards/format_reward": 0.9578993208706379,
      "step": 420
    },
    {
      "completion_length": 172.80729587872824,
      "epoch": 0.5605433162166639,
      "grad_norm": 0.3387187421321869,
      "kl": 0.9481608072916666,
      "learning_rate": 9.62939548995367e-06,
      "loss": 0.0379,
      "reward": 1.2608507374922435,
      "reward_std": 0.2416861488794287,
      "rewards/accuracy_reward": 0.30729167473812896,
      "rewards/format_reward": 0.9535590472320715,
      "step": 423
    },
    {
      "completion_length": 202.40842517217,
      "epoch": 0.5645188007288389,
      "grad_norm": 0.3616231381893158,
      "kl": 0.920166015625,
      "learning_rate": 9.490522740567633e-06,
      "loss": 0.0368,
      "reward": 1.1983507287998993,
      "reward_std": 0.2321951068782558,
      "rewards/accuracy_reward": 0.24826389597728848,
      "rewards/format_reward": 0.950086827079455,
      "step": 426
    },
    {
      "completion_length": 234.31207275390625,
      "epoch": 0.5684942852410138,
      "grad_norm": 0.3933253288269043,
      "kl": 0.89599609375,
      "learning_rate": 9.351748437771615e-06,
      "loss": 0.0358,
      "reward": 1.2092014277974765,
      "reward_std": 0.26475840294733644,
      "rewards/accuracy_reward": 0.2638888942698638,
      "rewards/format_reward": 0.9453125235935053,
      "step": 429
    },
    {
      "completion_length": 219.85721063613892,
      "epoch": 0.5724697697531886,
      "grad_norm": 0.3269123435020447,
      "kl": 0.8291015625,
      "learning_rate": 9.213099397005647e-06,
      "loss": 0.0332,
      "reward": 1.2604166964689891,
      "reward_std": 0.24623461983477077,
      "rewards/accuracy_reward": 0.3151041733411451,
      "rewards/format_reward": 0.9453125211099783,
      "step": 432
    },
    {
      "completion_length": 187.03993590672812,
      "epoch": 0.5764452542653636,
      "grad_norm": 0.3639557361602783,
      "kl": 0.8619791666666666,
      "learning_rate": 9.074602409505293e-06,
      "loss": 0.0345,
      "reward": 1.2573785136143367,
      "reward_std": 0.2650001817382872,
      "rewards/accuracy_reward": 0.30512153601739556,
      "rewards/format_reward": 0.9522569638987383,
      "step": 435
    },
    {
      "completion_length": 164.95964018503824,
      "epoch": 0.5804207387775385,
      "grad_norm": 0.47998958826065063,
      "kl": 0.9236653645833334,
      "learning_rate": 8.936284237124779e-06,
      "loss": 0.0369,
      "reward": 1.20616323625048,
      "reward_std": 0.20998603710904717,
      "rewards/accuracy_reward": 0.24479167334114513,
      "rewards/format_reward": 0.9613715435067812,
      "step": 438
    },
    {
      "completion_length": 165.91406766573587,
      "epoch": 0.5843962232897134,
      "grad_norm": 0.2889668345451355,
      "kl": 0.93359375,
      "learning_rate": 8.798171607165779e-06,
      "loss": 0.0374,
      "reward": 1.1775174016753833,
      "reward_std": 0.18780716601759195,
      "rewards/accuracy_reward": 0.21831597752558687,
      "rewards/format_reward": 0.9592014066874981,
      "step": 441
    },
    {
      "completion_length": 154.68273003896078,
      "epoch": 0.5883717078018884,
      "grad_norm": 0.3764539361000061,
      "kl": 0.9204915364583334,
      "learning_rate": 8.660291207212883e-06,
      "loss": 0.0368,
      "reward": 1.2274305820465088,
      "reward_std": 0.2107705035402129,
      "rewards/accuracy_reward": 0.25954861807016033,
      "rewards/format_reward": 0.967881960173448,
      "step": 444
    },
    {
      "completion_length": 242.51129245758057,
      "epoch": 0.5923471923140633,
      "grad_norm": 0.4235329031944275,
      "kl": 0.8951009114583334,
      "learning_rate": 8.52266967997675e-06,
      "loss": 0.0358,
      "reward": 1.1992187909781933,
      "reward_std": 0.2926396271989991,
      "rewards/accuracy_reward": 0.27473959047347307,
      "rewards/format_reward": 0.9244791890184084,
      "step": 447
    },
    {
      "completion_length": 216.438809633255,
      "epoch": 0.5963226768262382,
      "grad_norm": 0.5363680124282837,
      "kl": 0.9195963541666666,
      "learning_rate": 8.385333618145896e-06,
      "loss": 0.0368,
      "reward": 1.1462673942248027,
      "reward_std": 0.27518284460529685,
      "rewards/accuracy_reward": 0.21397570016173026,
      "rewards/format_reward": 0.9322916840513548,
      "step": 450
    },
    {
      "completion_length": 119.86154862244923,
      "epoch": 0.6002981613384131,
      "grad_norm": 0.5320878028869629,
      "kl": 0.965087890625,
      "learning_rate": 8.248309559248203e-06,
      "loss": 0.0386,
      "reward": 1.18619795764486,
      "reward_std": 0.20566960889846087,
      "rewards/accuracy_reward": 0.22135417337995023,
      "rewards/format_reward": 0.9648437711099783,
      "step": 453
    },
    {
      "completion_length": 98.42144385973613,
      "epoch": 0.6042736458505881,
      "grad_norm": 0.4586585760116577,
      "kl": 0.9525553385416666,
      "learning_rate": 8.111623980523036e-06,
      "loss": 0.0381,
      "reward": 1.2638889191051323,
      "reward_std": 0.20143946547371647,
      "rewards/accuracy_reward": 0.2899305631484215,
      "rewards/format_reward": 0.9739583469927311,
      "step": 456
    },
    {
      "completion_length": 153.68880653381348,
      "epoch": 0.608249130362763,
      "grad_norm": 5.601478576660156,
      "kl": 1.3423665364583333,
      "learning_rate": 7.975303293805036e-06,
      "loss": 0.0537,
      "reward": 1.2421875384946663,
      "reward_std": 0.24943431583233178,
      "rewards/accuracy_reward": 0.29513889698622126,
      "rewards/format_reward": 0.9470486293236414,
      "step": 459
    },
    {
      "completion_length": 172.61806122461954,
      "epoch": 0.6122246148749378,
      "grad_norm": 0.6199188828468323,
      "kl": 0.9340006510416666,
      "learning_rate": 7.839373840420555e-06,
      "loss": 0.0374,
      "reward": 1.1848958780368168,
      "reward_std": 0.270951366595303,
      "rewards/accuracy_reward": 0.24435764636533955,
      "rewards/format_reward": 0.9405382138987383,
      "step": 462
    },
    {
      "completion_length": 216.99045578638712,
      "epoch": 0.6162000993871128,
      "grad_norm": 22.460529327392578,
      "kl": 0.9293619791666666,
      "learning_rate": 7.70386188609769e-06,
      "loss": 0.0372,
      "reward": 1.2044271193444729,
      "reward_std": 0.2865686761215329,
      "rewards/accuracy_reward": 0.2812500084207083,
      "rewards/format_reward": 0.9231771019597849,
      "step": 465
    },
    {
      "completion_length": 200.38672375679016,
      "epoch": 0.6201755838992877,
      "grad_norm": 4.971067428588867,
      "kl": 0.9654947916666666,
      "learning_rate": 7.568793615890955e-06,
      "loss": 0.0386,
      "reward": 1.170138926555713,
      "reward_std": 0.28953606037733454,
      "rewards/accuracy_reward": 0.24869792345756045,
      "rewards/format_reward": 0.9214409912625948,
      "step": 468
    },
    {
      "completion_length": 263.26172574361163,
      "epoch": 0.6241510684114626,
      "grad_norm": 19461.30859375,
      "kl": 6020.59716796875,
      "learning_rate": 7.434195129121517e-06,
      "loss": 241.5018,
      "reward": 1.1197916927436988,
      "reward_std": 0.35640866014485556,
      "rewards/accuracy_reward": 0.2530382012870784,
      "rewards/format_reward": 0.8667534949878851,
      "step": 471
    },
    {
      "completion_length": 157.41016141573587,
      "epoch": 0.6281265529236376,
      "grad_norm": 15.363752365112305,
      "kl": 54.584309895833336,
      "learning_rate": 7.300092434334021e-06,
      "loss": 2.1851,
      "reward": 1.2139757387340069,
      "reward_std": 0.2608258535619825,
      "rewards/accuracy_reward": 0.27473959086152416,
      "rewards/format_reward": 0.9392361330489317,
      "step": 474
    },
    {
      "completion_length": 188.84332064787546,
      "epoch": 0.6321020374358125,
      "grad_norm": 3.5809130668640137,
      "kl": 1.1976725260416667,
      "learning_rate": 7.166511444270924e-06,
      "loss": 0.0479,
      "reward": 1.2309028158585231,
      "reward_std": 0.26117177587002516,
      "rewards/accuracy_reward": 0.2916666743112728,
      "rewards/format_reward": 0.9392361268401146,
      "step": 477
    },
    {
      "completion_length": 160.72222622235617,
      "epoch": 0.6360775219479874,
      "grad_norm": 3.082725763320923,
      "kl": 1.359375,
      "learning_rate": 7.033477970865381e-06,
      "loss": 0.0544,
      "reward": 1.2621528171002865,
      "reward_std": 0.24424838298000395,
      "rewards/accuracy_reward": 0.30772570373180014,
      "rewards/format_reward": 0.9544271032015482,
      "step": 480
    },
    {
      "completion_length": 172.35720992088318,
      "epoch": 0.6400530064601623,
      "grad_norm": 6.727673053741455,
      "kl": 3.7775065104166665,
      "learning_rate": 6.901017720253583e-06,
      "loss": 0.151,
      "reward": 1.1987847561637561,
      "reward_std": 0.24734753215064606,
      "rewards/accuracy_reward": 0.25824653392191976,
      "rewards/format_reward": 0.940538210173448,
      "step": 483
    },
    {
      "completion_length": 138.64713939030966,
      "epoch": 0.6440284909723373,
      "grad_norm": 28.416213989257812,
      "kl": 1.9168294270833333,
      "learning_rate": 6.769156287807539e-06,
      "loss": 0.0767,
      "reward": 1.2269965621332328,
      "reward_std": 0.21713009189503887,
      "rewards/accuracy_reward": 0.27170139527879655,
      "rewards/format_reward": 0.9552951566874981,
      "step": 486
    },
    {
      "completion_length": 111.01085392634074,
      "epoch": 0.6480039754845122,
      "grad_norm": 28.046361923217773,
      "kl": 1.4402669270833333,
      "learning_rate": 6.637919153189279e-06,
      "loss": 0.0576,
      "reward": 1.2903646230697632,
      "reward_std": 0.2030498057914277,
      "rewards/accuracy_reward": 0.33203126047737896,
      "rewards/format_reward": 0.9583333519597849,
      "step": 489
    },
    {
      "completion_length": 93.8329017162323,
      "epoch": 0.651979459996687,
      "grad_norm": 5.583730697631836,
      "kl": 1.2568359375,
      "learning_rate": 6.507331675427388e-06,
      "loss": 0.0503,
      "reward": 1.2226562922199566,
      "reward_std": 0.2042010520429661,
      "rewards/accuracy_reward": 0.2604166743500779,
      "rewards/format_reward": 0.9622396032015482,
      "step": 492
    },
    {
      "completion_length": 88.26736386617024,
      "epoch": 0.655954944508862,
      "grad_norm": 12.801457405090332,
      "kl": 1.261962890625,
      "learning_rate": 6.3774190880168804e-06,
      "loss": 0.0505,
      "reward": 1.2973090683420498,
      "reward_std": 0.23440878558903933,
      "rewards/accuracy_reward": 0.33289931528270245,
      "rewards/format_reward": 0.9644097437461218,
      "step": 495
    },
    {
      "completion_length": 90.45833583672841,
      "epoch": 0.6599304290210369,
      "grad_norm": 1334.54296875,
      "kl": 12.92529296875,
      "learning_rate": 6.248206494043313e-06,
      "loss": 0.5176,
      "reward": 1.269097267339627,
      "reward_std": 0.1979171479276071,
      "rewards/accuracy_reward": 0.30164931431257475,
      "rewards/format_reward": 0.9674479365348816,
      "step": 498
    },
    {
      "epoch": 0.6625807520291536,
      "eval_completion_length": 106.54038769648625,
      "eval_kl": 8.832752403846154,
      "eval_loss": 0.2197878211736679,
      "eval_reward": 1.2631410598754882,
      "eval_reward_std": 0.20897178661364776,
      "eval_rewards/accuracy_reward": 0.3028846269903275,
      "eval_rewards/format_reward": 0.9602564261509822,
      "eval_runtime": 284.6155,
      "eval_samples_per_second": 0.348,
      "eval_steps_per_second": 0.018,
      "step": 500
    },
    {
      "completion_length": 137.89062881469727,
      "epoch": 0.6639059135332118,
      "grad_norm": 196.66842651367188,
      "kl": 5.895263671875,
      "learning_rate": 6.119718861332098e-06,
      "loss": 0.4084,
      "reward": 1.3242188021540642,
      "reward_std": 0.24511273042298853,
      "rewards/accuracy_reward": 0.3710937574505806,
      "rewards/format_reward": 0.9531250298023224,
      "step": 501
    },
    {
      "completion_length": 101.93186076482137,
      "epoch": 0.6678813980453868,
      "grad_norm": 4.593560218811035,
      "kl": 2.0084635416666665,
      "learning_rate": 5.9919810176239554e-06,
      "loss": 0.0804,
      "reward": 1.2803819825251896,
      "reward_std": 0.22951093905915818,
      "rewards/accuracy_reward": 0.3185763976459081,
      "rewards/format_reward": 0.9618055758376917,
      "step": 504
    },
    {
      "completion_length": 98.08246823151906,
      "epoch": 0.6718568825575617,
      "grad_norm": 36.8542594909668,
      "kl": 1.6246744791666667,
      "learning_rate": 5.86501764577744e-06,
      "loss": 0.065,
      "reward": 1.2582465658585231,
      "reward_std": 0.20490265979121128,
      "rewards/accuracy_reward": 0.2903645906674986,
      "rewards/format_reward": 0.9678819614152113,
      "step": 507
    },
    {
      "completion_length": 125.86849367618561,
      "epoch": 0.6758323670697366,
      "grad_norm": 31.712203979492188,
      "kl": 2.9173990885416665,
      "learning_rate": 5.7388532789994476e-06,
      "loss": 0.1167,
      "reward": 1.2304687934617202,
      "reward_std": 0.23319136871335408,
      "rewards/accuracy_reward": 0.27473959159882116,
      "rewards/format_reward": 0.9557291840513548,
      "step": 510
    },
    {
      "completion_length": 108.07986442248027,
      "epoch": 0.6798078515819116,
      "grad_norm": 19.656137466430664,
      "kl": 2.4375,
      "learning_rate": 5.613512296104663e-06,
      "loss": 0.0974,
      "reward": 1.2282986529171467,
      "reward_std": 0.1991276788370063,
      "rewards/accuracy_reward": 0.26388889578326297,
      "rewards/format_reward": 0.964409738779068,
      "step": 513
    },
    {
      "completion_length": 120.73264233271281,
      "epoch": 0.6837833360940865,
      "grad_norm": 9.04715633392334,
      "kl": 1.5470377604166667,
      "learning_rate": 5.489018916804813e-06,
      "loss": 0.0619,
      "reward": 1.281250045945247,
      "reward_std": 0.22288222153050205,
      "rewards/accuracy_reward": 0.3198784813284874,
      "rewards/format_reward": 0.9613715497155985,
      "step": 516
    },
    {
      "completion_length": 113.39974268277486,
      "epoch": 0.6877588206062614,
      "grad_norm": 2.3152172565460205,
      "kl": 1.3323567708333333,
      "learning_rate": 5.365397197028686e-06,
      "loss": 0.0533,
      "reward": 1.2721354613701503,
      "reward_std": 0.19468989650097987,
      "rewards/accuracy_reward": 0.30338542551423114,
      "rewards/format_reward": 0.968750017384688,
      "step": 519
    },
    {
      "completion_length": 143.59983134269714,
      "epoch": 0.6917343051184363,
      "grad_norm": 12.121291160583496,
      "kl": 1.47412109375,
      "learning_rate": 5.242671024273798e-06,
      "loss": 0.059,
      "reward": 1.2456597636143367,
      "reward_std": 0.25431135304582614,
      "rewards/accuracy_reward": 0.29296875729536015,
      "rewards/format_reward": 0.9526909900208315,
      "step": 522
    },
    {
      "completion_length": 121.45529794692993,
      "epoch": 0.6957097896306113,
      "grad_norm": 3.243786334991455,
      "kl": 1.41357421875,
      "learning_rate": 5.120864112990569e-06,
      "loss": 0.0566,
      "reward": 1.2443576753139496,
      "reward_std": 0.20600120699964464,
      "rewards/accuracy_reward": 0.28125000714013976,
      "rewards/format_reward": 0.9631076554457346,
      "step": 525
    },
    {
      "completion_length": 141.91970892747244,
      "epoch": 0.6996852741427861,
      "grad_norm": 6.4455437660217285,
      "kl": 1.6841634114583333,
      "learning_rate": 5.000000000000003e-06,
      "loss": 0.0674,
      "reward": 1.2152778096497059,
      "reward_std": 0.23748167790472507,
      "rewards/accuracy_reward": 0.2604166748933494,
      "rewards/format_reward": 0.9548611342906952,
      "step": 528
    },
    {
      "completion_length": 145.10503919919333,
      "epoch": 0.703660758654961,
      "grad_norm": 4.077893257141113,
      "kl": 1.8653971354166667,
      "learning_rate": 4.880102039945625e-06,
      "loss": 0.0746,
      "reward": 1.2673611491918564,
      "reward_std": 0.22801773723525307,
      "rewards/accuracy_reward": 0.3116319513646886,
      "rewards/format_reward": 0.9557291865348816,
      "step": 531
    },
    {
      "completion_length": 153.23568006356558,
      "epoch": 0.707636243167136,
      "grad_norm": 2.3837387561798096,
      "kl": 1.5,
      "learning_rate": 4.761193400780667e-06,
      "loss": 0.06,
      "reward": 1.25694448625048,
      "reward_std": 0.24314528051763773,
      "rewards/accuracy_reward": 0.2999132027228673,
      "rewards/format_reward": 0.9570312711099783,
      "step": 534
    },
    {
      "completion_length": 167.8263931274414,
      "epoch": 0.7116117276793109,
      "grad_norm": 4.202811241149902,
      "kl": 2.5416666666666665,
      "learning_rate": 4.643297059291303e-06,
      "loss": 0.1017,
      "reward": 1.2248264277974765,
      "reward_std": 0.27370192063972354,
      "rewards/accuracy_reward": 0.27604167559184134,
      "rewards/format_reward": 0.9487847425043583,
      "step": 537
    },
    {
      "completion_length": 182.7339456876119,
      "epoch": 0.7155872121914858,
      "grad_norm": 14.95860481262207,
      "kl": 2.8761393229166665,
      "learning_rate": 4.52643579665683e-06,
      "loss": 0.1151,
      "reward": 1.2421875409781933,
      "reward_std": 0.25901925152478117,
      "rewards/accuracy_reward": 0.2981770924137284,
      "rewards/format_reward": 0.9440104328095913,
      "step": 540
    },
    {
      "completion_length": 154.5321224530538,
      "epoch": 0.7195626967036608,
      "grad_norm": 3.4772720336914062,
      "kl": 2.1795247395833335,
      "learning_rate": 4.410632194047652e-06,
      "loss": 0.0872,
      "reward": 1.2413194812834263,
      "reward_std": 0.2310507068565736,
      "rewards/accuracy_reward": 0.2834201504010707,
      "rewards/format_reward": 0.9578993258376917,
      "step": 543
    },
    {
      "completion_length": 183.41537022590637,
      "epoch": 0.7235381812158357,
      "grad_norm": 5.352535247802734,
      "kl": 2.7540690104166665,
      "learning_rate": 4.29590862826191e-06,
      "loss": 0.1102,
      "reward": 1.2369792026778061,
      "reward_std": 0.24117931607179344,
      "rewards/accuracy_reward": 0.2934027863666415,
      "rewards/format_reward": 0.9435764091710249,
      "step": 546
    },
    {
      "completion_length": 169.5039111773173,
      "epoch": 0.7275136657280106,
      "grad_norm": 2.4602179527282715,
      "kl": 1.9309895833333333,
      "learning_rate": 4.182287267401587e-06,
      "loss": 0.0772,
      "reward": 1.2404514315227668,
      "reward_std": 0.22196716310766837,
      "rewards/accuracy_reward": 0.2877604255530362,
      "rewards/format_reward": 0.9526909925043583,
      "step": 549
    },
    {
      "completion_length": 147.87847610314688,
      "epoch": 0.7314891502401856,
      "grad_norm": 3.658947229385376,
      "kl": 2.431640625,
      "learning_rate": 4.069790066588966e-06,
      "loss": 0.0972,
      "reward": 1.3168403158585231,
      "reward_std": 0.23325985188906392,
      "rewards/accuracy_reward": 0.3589409807464108,
      "rewards/format_reward": 0.9578993233541647,
      "step": 552
    },
    {
      "completion_length": 148.14410118261972,
      "epoch": 0.7354646347523605,
      "grad_norm": 2.160740613937378,
      "kl": 1.542236328125,
      "learning_rate": 3.9584387637242235e-06,
      "loss": 0.0617,
      "reward": 1.2235243457059066,
      "reward_std": 0.23132954825026295,
      "rewards/accuracy_reward": 0.2647569504721711,
      "rewards/format_reward": 0.9587673780818781,
      "step": 555
    },
    {
      "completion_length": 169.01172391573587,
      "epoch": 0.7394401192645353,
      "grad_norm": 13.349943161010742,
      "kl": 2.2926432291666665,
      "learning_rate": 3.848254875285e-06,
      "loss": 0.0917,
      "reward": 1.197048647950093,
      "reward_std": 0.2103662300699701,
      "rewards/accuracy_reward": 0.2460937569849193,
      "rewards/format_reward": 0.9509548842906952,
      "step": 558
    },
    {
      "completion_length": 157.60981353123984,
      "epoch": 0.7434156037767102,
      "grad_norm": 2.4742820262908936,
      "kl": 1.6537272135416667,
      "learning_rate": 3.739259692168764e-06,
      "loss": 0.0662,
      "reward": 1.229166705161333,
      "reward_std": 0.2528001538012177,
      "rewards/accuracy_reward": 0.27560764621011913,
      "rewards/format_reward": 0.9535590459903082,
      "step": 561
    },
    {
      "completion_length": 154.8311678568522,
      "epoch": 0.7473910882888852,
      "grad_norm": 1.9129363298416138,
      "kl": 1.6079915364583333,
      "learning_rate": 3.6314742755787537e-06,
      "loss": 0.0643,
      "reward": 1.2261285024384658,
      "reward_std": 0.22889205797885856,
      "rewards/accuracy_reward": 0.27300348059119034,
      "rewards/format_reward": 0.9531250235935053,
      "step": 564
    },
    {
      "completion_length": 151.18403148651123,
      "epoch": 0.7513665728010601,
      "grad_norm": 1.2694976329803467,
      "kl": 1.6017252604166667,
      "learning_rate": 3.524919452954314e-06,
      "loss": 0.064,
      "reward": 1.2248264377315838,
      "reward_std": 0.23556000289196768,
      "rewards/accuracy_reward": 0.26692709055108327,
      "rewards/format_reward": 0.9578993320465088,
      "step": 567
    },
    {
      "completion_length": 154.80859859784445,
      "epoch": 0.755342057313235,
      "grad_norm": 1.4956895112991333,
      "kl": 1.427734375,
      "learning_rate": 3.419615813946392e-06,
      "loss": 0.0571,
      "reward": 1.1974826753139496,
      "reward_std": 0.23270095341528454,
      "rewards/accuracy_reward": 0.23784722872854522,
      "rewards/format_reward": 0.9596354352931181,
      "step": 570
    },
    {
      "completion_length": 169.7625904083252,
      "epoch": 0.75931754182541,
      "grad_norm": 0.8634160161018372,
      "kl": 1.3221028645833333,
      "learning_rate": 3.315583706438994e-06,
      "loss": 0.0529,
      "reward": 1.2278646193444729,
      "reward_std": 0.24653864566547176,
      "rewards/accuracy_reward": 0.27734375892517465,
      "rewards/format_reward": 0.9505208519597849,
      "step": 573
    },
    {
      "completion_length": 157.0377644697825,
      "epoch": 0.7632930263375849,
      "grad_norm": 5.6404571533203125,
      "kl": 1.3050944010416667,
      "learning_rate": 3.212843232617343e-06,
      "loss": 0.0522,
      "reward": 1.2322048942248027,
      "reward_std": 0.21434197838728627,
      "rewards/accuracy_reward": 0.2738715362114211,
      "rewards/format_reward": 0.9583333519597849,
      "step": 576
    },
    {
      "completion_length": 149.35286871592203,
      "epoch": 0.7672685108497598,
      "grad_norm": 1.4161450862884521,
      "kl": 1.1617838541666667,
      "learning_rate": 3.1114142450835296e-06,
      "loss": 0.0465,
      "reward": 1.2365451728304226,
      "reward_std": 0.2225903740618378,
      "rewards/accuracy_reward": 0.2730034806688006,
      "rewards/format_reward": 0.9635416815678278,
      "step": 579
    },
    {
      "completion_length": 164.2899361451467,
      "epoch": 0.7712439953619348,
      "grad_norm": 2.1099228858947754,
      "kl": 1.1534016927083333,
      "learning_rate": 3.0113163430203775e-06,
      "loss": 0.0461,
      "reward": 1.2417535074055195,
      "reward_std": 0.2334075498705109,
      "rewards/accuracy_reward": 0.2873263977235183,
      "rewards/format_reward": 0.9544271044433117,
      "step": 582
    },
    {
      "completion_length": 166.99479564030966,
      "epoch": 0.7752194798741097,
      "grad_norm": 0.6481562256813049,
      "kl": 1.1204427083333333,
      "learning_rate": 2.912568868404284e-06,
      "loss": 0.0448,
      "reward": 1.2539062947034836,
      "reward_std": 0.2460917371014754,
      "rewards/accuracy_reward": 0.2977430645842105,
      "rewards/format_reward": 0.9561632151405016,
      "step": 585
    },
    {
      "completion_length": 142.4097265402476,
      "epoch": 0.7791949643862845,
      "grad_norm": 0.6822313070297241,
      "kl": 1.0983072916666667,
      "learning_rate": 2.815190902267757e-06,
      "loss": 0.0439,
      "reward": 1.2465278084079425,
      "reward_std": 0.21192065292658904,
      "rewards/accuracy_reward": 0.27864584055108327,
      "rewards/format_reward": 0.9678819651405016,
      "step": 588
    },
    {
      "completion_length": 172.7829921245575,
      "epoch": 0.7831704488984595,
      "grad_norm": 1.076019525527954,
      "kl": 1.0126953125,
      "learning_rate": 2.7192012610123777e-06,
      "loss": 0.0405,
      "reward": 1.2855903171002865,
      "reward_std": 0.22700861329212785,
      "rewards/accuracy_reward": 0.3285590385397275,
      "rewards/format_reward": 0.957031267384688,
      "step": 591
    },
    {
      "completion_length": 179.41103037198386,
      "epoch": 0.7871459334106344,
      "grad_norm": 0.7347291707992554,
      "kl": 1.072265625,
      "learning_rate": 2.6246184927728913e-06,
      "loss": 0.0429,
      "reward": 1.2395833755532901,
      "reward_std": 0.22892415950385234,
      "rewards/accuracy_reward": 0.2808159793494269,
      "rewards/format_reward": 0.9587673818071684,
      "step": 594
    },
    {
      "completion_length": 190.89887682596842,
      "epoch": 0.7911214179228093,
      "grad_norm": 1.5825515985488892,
      "kl": 1.0482584635416667,
      "learning_rate": 2.5314608738331535e-06,
      "loss": 0.0419,
      "reward": 1.2456597586472828,
      "reward_std": 0.24149028413618603,
      "rewards/accuracy_reward": 0.29427084256894886,
      "rewards/format_reward": 0.9513889116545519,
      "step": 597
    },
    {
      "completion_length": 175.54731305440268,
      "epoch": 0.7950969024349842,
      "grad_norm": 0.6331008672714233,
      "kl": 1.0225423177083333,
      "learning_rate": 2.4397464050945753e-06,
      "loss": 0.0409,
      "reward": 1.2434896143774192,
      "reward_std": 0.2312415634126713,
      "rewards/accuracy_reward": 0.2873263991593073,
      "rewards/format_reward": 0.9561632089316845,
      "step": 600
    },
    {
      "epoch": 0.7950969024349842,
      "eval_completion_length": 166.41919604214755,
      "eval_kl": 1.0108901515151516,
      "eval_loss": 0.040223389863967896,
      "eval_reward": 1.2853535666610256,
      "eval_reward_std": 0.22720548510551453,
      "eval_rewards/accuracy_reward": 0.32449495679501333,
      "eval_rewards/format_reward": 0.9608586051247336,
      "eval_runtime": 432.7167,
      "eval_samples_per_second": 0.229,
      "eval_steps_per_second": 0.012,
      "step": 600
    },
    {
      "completion_length": 197.4709267616272,
      "epoch": 0.7990723869471592,
      "grad_norm": 3.598181962966919,
      "kl": 1.1375325520833333,
      "learning_rate": 2.3494928085978073e-06,
      "loss": 0.0455,
      "reward": 1.241319480041663,
      "reward_std": 0.2442009438915799,
      "rewards/accuracy_reward": 0.2921006998512894,
      "rewards/format_reward": 0.949218769868215,
      "step": 603
    },
    {
      "completion_length": 171.99479659398398,
      "epoch": 0.8030478714593341,
      "grad_norm": 1.0907797813415527,
      "kl": 0.995849609375,
      "learning_rate": 2.2607175240983027e-06,
      "loss": 0.0399,
      "reward": 1.2322048917412758,
      "reward_std": 0.2378006634923319,
      "rewards/accuracy_reward": 0.2786458421420927,
      "rewards/format_reward": 0.9535590509573618,
      "step": 606
    },
    {
      "completion_length": 151.64627146720886,
      "epoch": 0.807023355971509,
      "grad_norm": 15.526721954345703,
      "kl": 1.0755208333333333,
      "learning_rate": 2.1734377056964175e-06,
      "loss": 0.043,
      "reward": 1.2387153183420498,
      "reward_std": 0.21919091992701092,
      "rewards/accuracy_reward": 0.2721354246993239,
      "rewards/format_reward": 0.9665798768401146,
      "step": 609
    },
    {
      "completion_length": 180.01128919919333,
      "epoch": 0.810998840483684,
      "grad_norm": 0.6363082528114319,
      "kl": 1.0391438802083333,
      "learning_rate": 2.087670218522714e-06,
      "loss": 0.0416,
      "reward": 1.210069477558136,
      "reward_std": 0.2583714901314427,
      "rewards/accuracy_reward": 0.25824653725915897,
      "rewards/format_reward": 0.9518229365348816,
      "step": 612
    },
    {
      "completion_length": 134.2313413619995,
      "epoch": 0.8149743249958589,
      "grad_norm": 0.5771492123603821,
      "kl": 0.9965006510416666,
      "learning_rate": 2.0034316354791062e-06,
      "loss": 0.0398,
      "reward": 1.2651910136143367,
      "reward_std": 0.1995284124277532,
      "rewards/accuracy_reward": 0.2968750091968104,
      "rewards/format_reward": 0.9683159900208315,
      "step": 615
    },
    {
      "completion_length": 145.0091195901235,
      "epoch": 0.8189498095080338,
      "grad_norm": 2.458407163619995,
      "kl": 1.0079752604166667,
      "learning_rate": 1.920738234036463e-06,
      "loss": 0.0403,
      "reward": 1.28298615415891,
      "reward_std": 0.21225994320896766,
      "rewards/accuracy_reward": 0.3133680646618207,
      "rewards/format_reward": 0.9696180721124014,
      "step": 618
    },
    {
      "completion_length": 157.43186203638712,
      "epoch": 0.8229252940202088,
      "grad_norm": 0.5727205276489258,
      "kl": 1.0079752604166667,
      "learning_rate": 1.8396059930893073e-06,
      "loss": 0.0403,
      "reward": 1.2170139253139496,
      "reward_std": 0.21727207908406854,
      "rewards/accuracy_reward": 0.25130209086152416,
      "rewards/format_reward": 0.9657118258376917,
      "step": 621
    },
    {
      "completion_length": 156.4114625453949,
      "epoch": 0.8269007785323836,
      "grad_norm": 0.5636825561523438,
      "kl": 0.9955240885416666,
      "learning_rate": 1.7600505898681996e-06,
      "loss": 0.0398,
      "reward": 1.2300347586472828,
      "reward_std": 0.23207383013019958,
      "rewards/accuracy_reward": 0.26649306435137987,
      "rewards/format_reward": 0.9635416877766451,
      "step": 624
    },
    {
      "completion_length": 154.10373576482138,
      "epoch": 0.8308762630445585,
      "grad_norm": 3.9658546447753906,
      "kl": 1.0211588541666667,
      "learning_rate": 1.6820873969104223e-06,
      "loss": 0.0409,
      "reward": 1.2500000434617202,
      "reward_std": 0.22843335390401384,
      "rewards/accuracy_reward": 0.2808159825702508,
      "rewards/format_reward": 0.9691840459903082,
      "step": 627
    },
    {
      "completion_length": 179.8810822168986,
      "epoch": 0.8348517475567335,
      "grad_norm": 0.8975684642791748,
      "kl": 0.9754231770833334,
      "learning_rate": 1.605731479089534e-06,
      "loss": 0.039,
      "reward": 1.270833384245634,
      "reward_std": 0.2560514376188318,
      "rewards/accuracy_reward": 0.3168402878024305,
      "rewards/format_reward": 0.9539930745959282,
      "step": 630
    },
    {
      "completion_length": 191.86068240801492,
      "epoch": 0.8388272320689084,
      "grad_norm": 1.0552254915237427,
      "kl": 1.05908203125,
      "learning_rate": 1.530997590704375e-06,
      "loss": 0.0424,
      "reward": 1.223524338255326,
      "reward_std": 0.24293402349576354,
      "rewards/accuracy_reward": 0.2669270930734153,
      "rewards/format_reward": 0.9565972437461218,
      "step": 633
    },
    {
      "completion_length": 201.91189877192178,
      "epoch": 0.8428027165810833,
      "grad_norm": 1.9689509868621826,
      "kl": 1.109130859375,
      "learning_rate": 1.4579001726280828e-06,
      "loss": 0.0444,
      "reward": 1.2560764352480571,
      "reward_std": 0.24747123545967042,
      "rewards/accuracy_reward": 0.299479175475426,
      "rewards/format_reward": 0.9565972400208315,
      "step": 636
    },
    {
      "completion_length": 201.5238777001699,
      "epoch": 0.8467782010932582,
      "grad_norm": 0.8104230761528015,
      "kl": 1.052734375,
      "learning_rate": 1.386453349517679e-06,
      "loss": 0.0421,
      "reward": 1.2391493332882721,
      "reward_std": 0.24252263192708293,
      "rewards/accuracy_reward": 0.281684036909913,
      "rewards/format_reward": 0.9574652922650179,
      "step": 639
    },
    {
      "completion_length": 170.00868566830954,
      "epoch": 0.8507536856054332,
      "grad_norm": 0.7141380310058594,
      "kl": 0.9737955729166666,
      "learning_rate": 1.316670927084751e-06,
      "loss": 0.039,
      "reward": 1.2630208705862362,
      "reward_std": 0.23810221177215377,
      "rewards/accuracy_reward": 0.29817709152121097,
      "rewards/format_reward": 0.9648437735935053,
      "step": 642
    },
    {
      "completion_length": 187.43533500035605,
      "epoch": 0.8547291701176081,
      "grad_norm": 0.9845206141471863,
      "kl": 1.1171061197916667,
      "learning_rate": 1.2485663894277611e-06,
      "loss": 0.0447,
      "reward": 1.2730035160978634,
      "reward_std": 0.216334043458725,
      "rewards/accuracy_reward": 0.3094618124887347,
      "rewards/format_reward": 0.9635416865348816,
      "step": 645
    },
    {
      "completion_length": 169.31076955795288,
      "epoch": 0.858704654629783,
      "grad_norm": 0.9538066387176514,
      "kl": 0.978271484375,
      "learning_rate": 1.182152896426515e-06,
      "loss": 0.0391,
      "reward": 1.281250037252903,
      "reward_std": 0.24271480288977423,
      "rewards/accuracy_reward": 0.31597222907779116,
      "rewards/format_reward": 0.9652777972320715,
      "step": 648
    },
    {
      "completion_length": 184.18012634913126,
      "epoch": 0.862680139141958,
      "grad_norm": 0.5063804388046265,
      "kl": 0.9745279947916666,
      "learning_rate": 1.1174432811992686e-06,
      "loss": 0.039,
      "reward": 1.24609378973643,
      "reward_std": 0.21818942956936857,
      "rewards/accuracy_reward": 0.2821180628379807,
      "rewards/format_reward": 0.9639757126569748,
      "step": 651
    },
    {
      "completion_length": 165.3055603504181,
      "epoch": 0.8666556236541328,
      "grad_norm": 0.6727854013442993,
      "kl": 0.9583333333333334,
      "learning_rate": 1.0544500476229713e-06,
      "loss": 0.0383,
      "reward": 1.2573785086472828,
      "reward_std": 0.22620403526040414,
      "rewards/accuracy_reward": 0.29427084035705775,
      "rewards/format_reward": 0.9631076554457346,
      "step": 654
    },
    {
      "completion_length": 186.19965728123984,
      "epoch": 0.8706311081663077,
      "grad_norm": 0.6164532899856567,
      "kl": 1.0279134114583333,
      "learning_rate": 9.931853679171377e-07,
      "loss": 0.0411,
      "reward": 1.2439236516753833,
      "reward_std": 0.24075799800145128,
      "rewards/accuracy_reward": 0.28559028551292914,
      "rewards/format_reward": 0.9583333507180214,
      "step": 657
    },
    {
      "completion_length": 177.0638066927592,
      "epoch": 0.8746065926784827,
      "grad_norm": 0.6313008666038513,
      "kl": 1.0465494791666667,
      "learning_rate": 9.336610802918044e-07,
      "loss": 0.0419,
      "reward": 1.2708333631356556,
      "reward_std": 0.20328321517445147,
      "rewards/accuracy_reward": 0.3051215368323028,
      "rewards/format_reward": 0.9657118245959282,
      "step": 660
    },
    {
      "completion_length": 178.04774816830954,
      "epoch": 0.8785820771906576,
      "grad_norm": 0.5517924427986145,
      "kl": 1.0804036458333333,
      "learning_rate": 8.758886866600258e-07,
      "loss": 0.0433,
      "reward": 1.3003472636143367,
      "reward_std": 0.20480242053357264,
      "rewards/accuracy_reward": 0.33203125970127684,
      "rewards/format_reward": 0.9683159875373045,
      "step": 663
    },
    {
      "completion_length": 184.22309557596842,
      "epoch": 0.8825575617028325,
      "grad_norm": 1.6948155164718628,
      "kl": 0.9346516927083334,
      "learning_rate": 8.198793504153491e-07,
      "loss": 0.0374,
      "reward": 1.2834201827645302,
      "reward_std": 0.22442288471696278,
      "rewards/accuracy_reward": 0.31770834152121097,
      "rewards/format_reward": 0.9657118221124014,
      "step": 666
    },
    {
      "completion_length": 163.08811235427856,
      "epoch": 0.8865330462150075,
      "grad_norm": 0.5778855085372925,
      "kl": 0.9193522135416666,
      "learning_rate": 7.656438942747057e-07,
      "loss": 0.0368,
      "reward": 1.27039934694767,
      "reward_std": 0.1949684239613513,
      "rewards/accuracy_reward": 0.2973090352024883,
      "rewards/format_reward": 0.9730902947485447,
      "step": 669
    },
    {
      "completion_length": 190.82596119244894,
      "epoch": 0.8905085307271824,
      "grad_norm": 0.6843112111091614,
      "kl": 1.0071614583333333,
      "learning_rate": 7.131927981871345e-07,
      "loss": 0.0403,
      "reward": 1.2348090757926304,
      "reward_std": 0.22979943679335216,
      "rewards/accuracy_reward": 0.27213542349636555,
      "rewards/format_reward": 0.9626736293236414,
      "step": 672
    },
    {
      "completion_length": 180.4761331876119,
      "epoch": 0.8944840152393573,
      "grad_norm": 1.2002581357955933,
      "kl": 0.9956868489583334,
      "learning_rate": 6.625361973087363e-07,
      "loss": 0.0398,
      "reward": 1.267361156642437,
      "reward_std": 0.20884954005790254,
      "rewards/accuracy_reward": 0.2999132029945031,
      "rewards/format_reward": 0.9674479303260645,
      "step": 675
    },
    {
      "completion_length": 171.35373767217,
      "epoch": 0.8984594997515322,
      "grad_norm": 0.5270951390266418,
      "kl": 0.9773763020833334,
      "learning_rate": 6.136838800442457e-07,
      "loss": 0.0391,
      "reward": 1.2855903183420498,
      "reward_std": 0.19845290334584811,
      "rewards/accuracy_reward": 0.3168402863666415,
      "rewards/format_reward": 0.9687500186264515,
      "step": 678
    },
    {
      "completion_length": 190.48004015286764,
      "epoch": 0.9024349842637072,
      "grad_norm": 0.8527917861938477,
      "kl": 0.9973958333333334,
      "learning_rate": 5.66645286155616e-07,
      "loss": 0.0399,
      "reward": 1.2916667014360428,
      "reward_std": 0.2291031815111637,
      "rewards/accuracy_reward": 0.32986112144620466,
      "rewards/format_reward": 0.9618055721124014,
      "step": 681
    },
    {
      "completion_length": 189.20226113001505,
      "epoch": 0.906410468775882,
      "grad_norm": 9.596158981323242,
      "kl": 1.0517578125,
      "learning_rate": 5.214295049379658e-07,
      "loss": 0.0421,
      "reward": 1.2582465782761574,
      "reward_std": 0.22187859937548637,
      "rewards/accuracy_reward": 0.2938368134200573,
      "rewards/format_reward": 0.9644097400208315,
      "step": 684
    },
    {
      "completion_length": 187.68099466959634,
      "epoch": 0.9103859532880569,
      "grad_norm": 0.6961022615432739,
      "kl": 0.9669596354166666,
      "learning_rate": 4.780452734632524e-07,
      "loss": 0.0387,
      "reward": 1.2760417039195697,
      "reward_std": 0.22566887092155716,
      "rewards/accuracy_reward": 0.31163195543922484,
      "rewards/format_reward": 0.9644097425043583,
      "step": 687
    },
    {
      "completion_length": 181.89453570048013,
      "epoch": 0.9143614378002319,
      "grad_norm": 0.5587486028671265,
      "kl": 0.9386393229166666,
      "learning_rate": 4.3650097489200125e-07,
      "loss": 0.0376,
      "reward": 1.2834201777974765,
      "reward_std": 0.21305101970210671,
      "rewards/accuracy_reward": 0.3146701470638315,
      "rewards/format_reward": 0.9687500161429247,
      "step": 690
    },
    {
      "completion_length": 186.9974012374878,
      "epoch": 0.9183369223124068,
      "grad_norm": 0.603073000907898,
      "kl": 0.977783203125,
      "learning_rate": 3.9680463685342173e-07,
      "loss": 0.0391,
      "reward": 1.3268229588866234,
      "reward_std": 0.22527993516996503,
      "rewards/accuracy_reward": 0.36154514946974814,
      "rewards/format_reward": 0.9652777935067812,
      "step": 693
    },
    {
      "completion_length": 199.9023496309916,
      "epoch": 0.9223124068245817,
      "grad_norm": 0.49448880553245544,
      "kl": 0.979736328125,
      "learning_rate": 3.589639298942238e-07,
      "loss": 0.0392,
      "reward": 1.276475730041663,
      "reward_std": 0.2337690940281997,
      "rewards/accuracy_reward": 0.3138020931510255,
      "rewards/format_reward": 0.9626736293236414,
      "step": 696
    },
    {
      "completion_length": 179.73394536972046,
      "epoch": 0.9262878913367567,
      "grad_norm": 3.9789516925811768,
      "kl": 0.976318359375,
      "learning_rate": 3.2298616599643285e-07,
      "loss": 0.0391,
      "reward": 1.278211849431197,
      "reward_std": 0.1972268489189446,
      "rewards/accuracy_reward": 0.3103298700880259,
      "rewards/format_reward": 0.9678819626569748,
      "step": 699
    },
    {
      "epoch": 0.927613052840815,
      "eval_completion_length": 198.22194461433256,
      "eval_kl": 1.0224011479591837,
      "eval_loss": 0.039721183478832245,
      "eval_reward": 1.2755102442235362,
      "eval_reward_std": 0.2398411301629884,
      "eval_rewards/accuracy_reward": 0.31972789886046427,
      "eval_rewards/format_reward": 0.9557823356317015,
      "eval_runtime": 434.6419,
      "eval_samples_per_second": 0.228,
      "eval_steps_per_second": 0.012,
      "step": 700
    },
    {
      "completion_length": 181.44922268390656,
      "epoch": 0.9302633758489316,
      "grad_norm": 0.6522932648658752,
      "kl": 0.9718017578125,
      "learning_rate": 2.8887829716449877e-07,
      "loss": 0.0401,
      "reward": 1.2643229570239782,
      "reward_std": 0.22105206700507551,
      "rewards/accuracy_reward": 0.30013021564809605,
      "rewards/format_reward": 0.9641927294433117,
      "step": 702
    },
    {
      "completion_length": 193.3624184926351,
      "epoch": 0.9342388603611065,
      "grad_norm": 0.6112500429153442,
      "kl": 0.9839680989583334,
      "learning_rate": 2.5664691408194164e-07,
      "loss": 0.0394,
      "reward": 1.2582465621332328,
      "reward_std": 0.23564991471357644,
      "rewards/accuracy_reward": 0.2955729262127231,
      "rewards/format_reward": 0.9626736280818781,
      "step": 705
    },
    {
      "completion_length": 220.39193407694498,
      "epoch": 0.9382143448732815,
      "grad_norm": 0.631359875202179,
      "kl": 1.0447591145833333,
      "learning_rate": 2.262982448378437e-07,
      "loss": 0.0418,
      "reward": 1.2782118432223797,
      "reward_std": 0.2571307167721291,
      "rewards/accuracy_reward": 0.32291667396202683,
      "rewards/format_reward": 0.9552951566874981,
      "step": 708
    },
    {
      "completion_length": 208.5000058809916,
      "epoch": 0.9421898293854564,
      "grad_norm": 0.6516295075416565,
      "kl": 1.075927734375,
      "learning_rate": 1.9783815372338422e-07,
      "loss": 0.043,
      "reward": 1.2669271230697632,
      "reward_std": 0.26777021974946064,
      "rewards/accuracy_reward": 0.31597223101804656,
      "rewards/format_reward": 0.9509548805654049,
      "step": 711
    },
    {
      "completion_length": 190.33203514417013,
      "epoch": 0.9461653138976313,
      "grad_norm": 0.8081660866737366,
      "kl": 0.9834798177083334,
      "learning_rate": 1.7127214009868387e-07,
      "loss": 0.0393,
      "reward": 1.3146701827645302,
      "reward_std": 0.22434815554879606,
      "rewards/accuracy_reward": 0.350694455128784,
      "rewards/format_reward": 0.9639757138987383,
      "step": 714
    },
    {
      "completion_length": 191.1718815167745,
      "epoch": 0.9501407984098061,
      "grad_norm": 0.6136611700057983,
      "kl": 0.9658203125,
      "learning_rate": 1.4660533733015236e-07,
      "loss": 0.0386,
      "reward": 1.2361111529171467,
      "reward_std": 0.2575679953054835,
      "rewards/accuracy_reward": 0.2760416753590107,
      "rewards/format_reward": 0.9600694651405016,
      "step": 717
    },
    {
      "completion_length": 199.0850751399994,
      "epoch": 0.9541162829219811,
      "grad_norm": 2.2742247581481934,
      "kl": 1.0128580729166667,
      "learning_rate": 1.2384251179857642e-07,
      "loss": 0.0405,
      "reward": 1.2573785086472828,
      "reward_std": 0.23815507961747548,
      "rewards/accuracy_reward": 0.2964409807464108,
      "rewards/format_reward": 0.9609375149011612,
      "step": 720
    },
    {
      "completion_length": 180.6779546737671,
      "epoch": 0.958091767434156,
      "grad_norm": 0.546220064163208,
      "kl": 0.9303385416666666,
      "learning_rate": 1.0298806197809985e-07,
      "loss": 0.0372,
      "reward": 1.2834201827645302,
      "reward_std": 0.23479281645268202,
      "rewards/accuracy_reward": 0.32031251102065045,
      "rewards/format_reward": 0.9631076616545519,
      "step": 723
    },
    {
      "completion_length": 189.55859804153442,
      "epoch": 0.9620672519463309,
      "grad_norm": 0.5562774538993835,
      "kl": 0.964111328125,
      "learning_rate": 8.404601758630892e-08,
      "loss": 0.0386,
      "reward": 1.2556424004336197,
      "reward_std": 0.23037906123014787,
      "rewards/accuracy_reward": 0.2955729252814005,
      "rewards/format_reward": 0.9600694626569748,
      "step": 726
    },
    {
      "completion_length": 202.31163819630942,
      "epoch": 0.9660427364585059,
      "grad_norm": 0.6967044472694397,
      "kl": 0.984130859375,
      "learning_rate": 6.702003880556418e-08,
      "loss": 0.0394,
      "reward": 1.2834201728304226,
      "reward_std": 0.23515649721957743,
      "rewards/accuracy_reward": 0.32508681404093903,
      "rewards/format_reward": 0.9583333507180214,
      "step": 729
    },
    {
      "completion_length": 184.46702075004578,
      "epoch": 0.9700182209706808,
      "grad_norm": 1.1955063343048096,
      "kl": 1.0083821614583333,
      "learning_rate": 5.191341557574392e-08,
      "loss": 0.0403,
      "reward": 1.2309028195838134,
      "reward_std": 0.22288473897303143,
      "rewards/accuracy_reward": 0.2695312558983763,
      "rewards/format_reward": 0.961371548473835,
      "step": 732
    },
    {
      "completion_length": 171.00391014417013,
      "epoch": 0.9739937054828557,
      "grad_norm": 3.6898951530456543,
      "kl": 0.980224609375,
      "learning_rate": 3.872906695852607e-08,
      "loss": 0.0392,
      "reward": 1.2894965633749962,
      "reward_std": 0.22550825821235776,
      "rewards/accuracy_reward": 0.3198784821821998,
      "rewards/format_reward": 0.969618077079455,
      "step": 735
    },
    {
      "completion_length": 181.51215736071268,
      "epoch": 0.9779691899950307,
      "grad_norm": 0.8761662244796753,
      "kl": 0.9816080729166666,
      "learning_rate": 2.746954057333606e-08,
      "loss": 0.0393,
      "reward": 1.2582465695838134,
      "reward_std": 0.23283367223727205,
      "rewards/accuracy_reward": 0.2925347340060398,
      "rewards/format_reward": 0.9657118221124014,
      "step": 738
    },
    {
      "completion_length": 166.68663636843362,
      "epoch": 0.9819446745072056,
      "grad_norm": 0.48325055837631226,
      "kl": 0.996337890625,
      "learning_rate": 1.8137012105069464e-08,
      "loss": 0.0398,
      "reward": 1.263454897950093,
      "reward_std": 0.20216705913965902,
      "rewards/accuracy_reward": 0.29383681442899007,
      "rewards/format_reward": 0.9696180733541647,
      "step": 741
    },
    {
      "completion_length": 182.96528228123984,
      "epoch": 0.9859201590193805,
      "grad_norm": 0.55852872133255,
      "kl": 0.9632161458333334,
      "learning_rate": 1.0733284883682748e-08,
      "loss": 0.0385,
      "reward": 1.2773437909781933,
      "reward_std": 0.2304229981576403,
      "rewards/accuracy_reward": 0.31032986772091437,
      "rewards/format_reward": 0.9670139066874981,
      "step": 744
    },
    {
      "completion_length": 200.19835631052652,
      "epoch": 0.9898956435315555,
      "grad_norm": 4.7552056312561035,
      "kl": 1.1190592447916667,
      "learning_rate": 5.25978953573536e-09,
      "loss": 0.0447,
      "reward": 1.2855903195838134,
      "reward_std": 0.2617647792988767,
      "rewards/accuracy_reward": 0.3268229243112728,
      "rewards/format_reward": 0.9587673805654049,
      "step": 747
    },
    {
      "completion_length": 192.70313183466592,
      "epoch": 0.9938711280437303,
      "grad_norm": 0.49542155861854553,
      "kl": 0.9990234375,
      "learning_rate": 1.7175837079452806e-09,
      "loss": 0.04,
      "reward": 1.2573785160978634,
      "reward_std": 0.21775838693914315,
      "rewards/accuracy_reward": 0.2960069530721133,
      "rewards/format_reward": 0.9613715497155985,
      "step": 750
    },
    {
      "completion_length": 200.46571826934814,
      "epoch": 0.9978466125559052,
      "grad_norm": 0.8950777053833008,
      "kl": 1.0421549479166667,
      "learning_rate": 1.0735186282695431e-10,
      "loss": 0.0417,
      "reward": 1.2717014340062935,
      "reward_std": 0.2556659254866342,
      "rewards/accuracy_reward": 0.31206598148370784,
      "rewards/format_reward": 0.9596354328095913,
      "step": 753
    },
    {
      "completion_length": 211.18359994888306,
      "epoch": 0.9991717740599636,
      "kl": 0.985107421875,
      "reward": 1.2708333656191826,
      "reward_std": 0.28282210882753134,
      "rewards/accuracy_reward": 0.31250000838190317,
      "rewards/format_reward": 0.9583333544433117,
      "step": 754,
      "total_flos": 0.0,
      "train_loss": 1.286716509427883,
      "train_runtime": 229250.8975,
      "train_samples_per_second": 0.316,
      "train_steps_per_second": 0.003
    }
  ],
  "logging_steps": 3,
  "max_steps": 754,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}