{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.997867803837953,
  "eval_steps": 500,
  "global_step": 234,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 576.5390625,
      "epoch": 0.0042643923240938165,
      "grad_norm": 0.32528209686279297,
      "kl": 0.0,
      "learning_rate": 8.333333333333333e-07,
      "loss": 0.0286,
      "reward": 0.2578125,
      "reward_std": 0.40137775242328644,
      "rewards/accuracy_reward": 0.18359375,
      "rewards/format_reward": 0.015625,
      "rewards/tag_count_reward": 0.05859375,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.66796875,
      "epoch": 0.008528784648187633,
      "grad_norm": 0.43932273983955383,
      "kl": 0.0,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.0028,
      "reward": 0.265625,
      "reward_std": 0.40303920209407806,
      "rewards/accuracy_reward": 0.17578125,
      "rewards/format_reward": 0.02734375,
      "rewards/tag_count_reward": 0.0625,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.96484375,
      "epoch": 0.01279317697228145,
      "grad_norm": 0.4568934440612793,
      "kl": 0.0001436471939086914,
      "learning_rate": 2.5e-06,
      "loss": 0.0148,
      "reward": 0.3037109375,
      "reward_std": 0.41709331423044205,
      "rewards/accuracy_reward": 0.203125,
      "rewards/format_reward": 0.01953125,
      "rewards/tag_count_reward": 0.0810546875,
      "step": 3
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.796875,
      "epoch": 0.017057569296375266,
      "grad_norm": 0.5138208866119385,
      "kl": 0.0001804828643798828,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.0222,
      "reward": 0.3076171875,
      "reward_std": 0.4279475286602974,
      "rewards/accuracy_reward": 0.1953125,
      "rewards/format_reward": 0.03515625,
      "rewards/tag_count_reward": 0.0771484375,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.140625,
      "epoch": 0.021321961620469083,
      "grad_norm": 0.4469239115715027,
      "kl": 0.0010051727294921875,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.0029,
      "reward": 0.318359375,
      "reward_std": 0.44843800365924835,
      "rewards/accuracy_reward": 0.18359375,
      "rewards/format_reward": 0.02734375,
      "rewards/tag_count_reward": 0.107421875,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.3125,
      "epoch": 0.0255863539445629,
      "grad_norm": 0.7152092456817627,
      "kl": 0.029693603515625,
      "learning_rate": 5e-06,
      "loss": 0.0403,
      "reward": 0.5029296875,
      "reward_std": 0.6177150011062622,
      "rewards/accuracy_reward": 0.171875,
      "rewards/format_reward": 0.10546875,
      "rewards/tag_count_reward": 0.2255859375,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.74609375,
      "epoch": 0.029850746268656716,
      "grad_norm": 2.3532168865203857,
      "kl": 0.09393310546875,
      "learning_rate": 5.833333333333334e-06,
      "loss": 0.048,
      "reward": 0.564453125,
      "reward_std": 0.6538278013467789,
      "rewards/accuracy_reward": 0.2578125,
      "rewards/format_reward": 0.10546875,
      "rewards/tag_count_reward": 0.201171875,
      "step": 7
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.9765625,
      "epoch": 0.03411513859275053,
      "grad_norm": 0.46021807193756104,
      "kl": 0.016357421875,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.0541,
      "reward": 0.5888671875,
      "reward_std": 0.592596247792244,
      "rewards/accuracy_reward": 0.19921875,
      "rewards/format_reward": 0.15234375,
      "rewards/tag_count_reward": 0.2373046875,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.79296875,
      "epoch": 0.03837953091684435,
      "grad_norm": 2.5319058895111084,
      "kl": 0.0784912109375,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.0801,
      "reward": 0.71875,
      "reward_std": 0.6128444075584412,
      "rewards/accuracy_reward": 0.3515625,
      "rewards/format_reward": 0.140625,
      "rewards/tag_count_reward": 0.2265625,
      "step": 9
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.734375,
      "epoch": 0.042643923240938165,
      "grad_norm": 1.262290596961975,
      "kl": 0.0523223876953125,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.0363,
      "reward": 0.5009765625,
      "reward_std": 0.5229385495185852,
      "rewards/accuracy_reward": 0.296875,
      "rewards/format_reward": 0.078125,
      "rewards/tag_count_reward": 0.1259765625,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.44140625,
      "epoch": 0.046908315565031986,
      "grad_norm": 1.3580890893936157,
      "kl": 0.0596923828125,
      "learning_rate": 9.166666666666666e-06,
      "loss": 0.11,
      "reward": 0.681640625,
      "reward_std": 0.6728685200214386,
      "rewards/accuracy_reward": 0.23828125,
      "rewards/format_reward": 0.18359375,
      "rewards/tag_count_reward": 0.259765625,
      "step": 11
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.75390625,
      "epoch": 0.0511727078891258,
      "grad_norm": 4.042412281036377,
      "kl": 0.047576904296875,
      "learning_rate": 1e-05,
      "loss": 0.0732,
      "reward": 0.521484375,
      "reward_std": 0.5327698737382889,
      "rewards/accuracy_reward": 0.27734375,
      "rewards/format_reward": 0.08203125,
      "rewards/tag_count_reward": 0.162109375,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.421875,
      "epoch": 0.05543710021321962,
      "grad_norm": 0.3716038763523102,
      "kl": 0.0142669677734375,
      "learning_rate": 1.0833333333333334e-05,
      "loss": 0.1328,
      "reward": 0.599609375,
      "reward_std": 0.6229686141014099,
      "rewards/accuracy_reward": 0.234375,
      "rewards/format_reward": 0.14453125,
      "rewards/tag_count_reward": 0.220703125,
      "step": 13
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.3828125,
      "epoch": 0.05970149253731343,
      "grad_norm": 2.6377227306365967,
      "kl": 0.119598388671875,
      "learning_rate": 1.1666666666666668e-05,
      "loss": 0.1456,
      "reward": 0.798828125,
      "reward_std": 0.7079743444919586,
      "rewards/accuracy_reward": 0.23046875,
      "rewards/format_reward": 0.21875,
      "rewards/tag_count_reward": 0.349609375,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.79296875,
      "epoch": 0.06396588486140725,
      "grad_norm": 0.4819924831390381,
      "kl": 0.035736083984375,
      "learning_rate": 1.25e-05,
      "loss": 0.0931,
      "reward": 0.8818359375,
      "reward_std": 0.6916099190711975,
      "rewards/accuracy_reward": 0.20703125,
      "rewards/format_reward": 0.234375,
      "rewards/tag_count_reward": 0.4404296875,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.69921875,
      "epoch": 0.06823027718550106,
      "grad_norm": 1.3913614749908447,
      "kl": 0.0682373046875,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.2251,
      "reward": 1.1982421875,
      "reward_std": 0.7941954433917999,
      "rewards/accuracy_reward": 0.0859375,
      "rewards/format_reward": 0.4375,
      "rewards/tag_count_reward": 0.6748046875,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 299.75,
      "epoch": 0.07249466950959488,
      "grad_norm": 0.9118645787239075,
      "kl": 0.0875244140625,
      "learning_rate": 1.416666666666667e-05,
      "loss": 0.2379,
      "reward": 1.59765625,
      "reward_std": 0.6924279183149338,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.65625,
      "rewards/tag_count_reward": 0.828125,
      "step": 17
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 220.4921875,
      "epoch": 0.0767590618336887,
      "grad_norm": 1.340067982673645,
      "kl": 0.133056640625,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.1821,
      "reward": 1.8427734375,
      "reward_std": 0.4516802802681923,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.84375,
      "rewards/tag_count_reward": 0.9287109375,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 182.53515625,
      "epoch": 0.08102345415778252,
      "grad_norm": 3.030550003051758,
      "kl": 0.4296875,
      "learning_rate": 1.5833333333333333e-05,
      "loss": 0.0898,
      "reward": 1.986328125,
      "reward_std": 0.22909418493509293,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.95703125,
      "rewards/tag_count_reward": 0.958984375,
      "step": 19
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 214.65234375,
      "epoch": 0.08528784648187633,
      "grad_norm": 1.1024236679077148,
      "kl": 0.1187744140625,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.1787,
      "reward": 2.0078125,
      "reward_std": 0.170526759698987,
      "rewards/accuracy_reward": 0.06640625,
      "rewards/format_reward": 0.98046875,
      "rewards/tag_count_reward": 0.9609375,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 208.2421875,
      "epoch": 0.08955223880597014,
      "grad_norm": 22.709352493286133,
      "kl": 1.359375,
      "learning_rate": 1.7500000000000002e-05,
      "loss": 0.1298,
      "reward": 1.9345703125,
      "reward_std": 0.32205624878406525,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.91015625,
      "rewards/tag_count_reward": 0.9619140625,
      "step": 21
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 253.96484375,
      "epoch": 0.09381663113006397,
      "grad_norm": 8.92030143737793,
      "kl": 1.1494140625,
      "learning_rate": 1.8333333333333333e-05,
      "loss": 0.1757,
      "reward": 1.4931640625,
      "reward_std": 0.6142828911542892,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.57421875,
      "rewards/tag_count_reward": 0.8720703125,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 217.625,
      "epoch": 0.09808102345415778,
      "grad_norm": 3.518479585647583,
      "kl": 0.38134765625,
      "learning_rate": 1.916666666666667e-05,
      "loss": 0.0203,
      "reward": 1.0087890625,
      "reward_std": 0.44057436287403107,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.171875,
      "rewards/tag_count_reward": 0.7861328125,
      "step": 23
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.28125,
      "epoch": 0.1023454157782516,
      "grad_norm": 1.0693765878677368,
      "kl": 0.19775390625,
      "learning_rate": 2e-05,
      "loss": 0.0202,
      "reward": 1.134765625,
      "reward_std": 0.5518650561571121,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.296875,
      "rewards/tag_count_reward": 0.814453125,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.78515625,
      "epoch": 0.10660980810234541,
      "grad_norm": 9.523970603942871,
      "kl": 0.23779296875,
      "learning_rate": 1.9998881018102735e-05,
      "loss": 0.1602,
      "reward": 1.501953125,
      "reward_std": 0.6455793529748917,
      "rewards/accuracy_reward": 0.1015625,
      "rewards/format_reward": 0.50390625,
      "rewards/tag_count_reward": 0.896484375,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.72265625,
      "epoch": 0.11087420042643924,
      "grad_norm": 24690.228515625,
      "kl": 121.465576171875,
      "learning_rate": 1.9995524322835035e-05,
      "loss": 6.9741,
      "reward": 1.5634765625,
      "reward_std": 0.648356705904007,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.58984375,
      "rewards/tag_count_reward": 0.8955078125,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.1953125,
      "epoch": 0.11513859275053305,
      "grad_norm": 114.83018493652344,
      "kl": 1.1298828125,
      "learning_rate": 1.9989930665413148e-05,
      "loss": 0.3668,
      "reward": 1.2841796875,
      "reward_std": 0.7657907009124756,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.453125,
      "rewards/tag_count_reward": 0.7802734375,
      "step": 27
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.98828125,
      "epoch": 0.11940298507462686,
      "grad_norm": 32.12217330932617,
      "kl": 0.9326171875,
      "learning_rate": 1.998210129767735e-05,
      "loss": 0.3607,
      "reward": 1.0625,
      "reward_std": 0.7528532892465591,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.328125,
      "rewards/tag_count_reward": 0.68359375,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 534.66796875,
      "epoch": 0.12366737739872068,
      "grad_norm": 31.25490951538086,
      "kl": 0.796875,
      "learning_rate": 1.9972037971811802e-05,
      "loss": 0.1675,
      "reward": 0.6337890625,
      "reward_std": 0.5352872237563133,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.109375,
      "rewards/tag_count_reward": 0.4892578125,
      "step": 29
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.50390625,
      "epoch": 0.1279317697228145,
      "grad_norm": 7.399560928344727,
      "kl": 0.8779296875,
      "learning_rate": 1.9959742939952393e-05,
      "loss": 0.0607,
      "reward": 0.4462890625,
      "reward_std": 0.32183003425598145,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.03515625,
      "rewards/tag_count_reward": 0.3916015625,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.3125,
      "epoch": 0.13219616204690832,
      "grad_norm": 391.785888671875,
      "kl": 8.494140625,
      "learning_rate": 1.9945218953682736e-05,
      "loss": 0.5494,
      "reward": 0.4248046875,
      "reward_std": 0.2781025320291519,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0234375,
      "rewards/tag_count_reward": 0.3857421875,
      "step": 31
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.62890625,
      "epoch": 0.13646055437100213,
      "grad_norm": 199.300048828125,
      "kl": 2.603515625,
      "learning_rate": 1.9928469263418376e-05,
      "loss": 0.235,
      "reward": 0.3564453125,
      "reward_std": 0.19321707263588905,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.0078125,
      "rewards/tag_count_reward": 0.3447265625,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.109375,
      "epoch": 0.14072494669509594,
      "grad_norm": 3538.403564453125,
      "kl": 31.28515625,
      "learning_rate": 1.990949761767935e-05,
      "loss": 2.1404,
      "reward": 0.3896484375,
      "reward_std": 0.24749910086393356,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.01953125,
      "rewards/tag_count_reward": 0.3583984375,
      "step": 33
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.28515625,
      "epoch": 0.14498933901918976,
      "grad_norm": 111.8864517211914,
      "kl": 1.9296875,
      "learning_rate": 1.9888308262251286e-05,
      "loss": 0.1906,
      "reward": 0.345703125,
      "reward_std": 0.1697397418320179,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.333984375,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.56640625,
      "epoch": 0.14925373134328357,
      "grad_norm": 14.984077453613281,
      "kl": 1.08984375,
      "learning_rate": 1.9864905939235215e-05,
      "loss": 0.0739,
      "reward": 0.3662109375,
      "reward_std": 0.19745982438325882,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.00390625,
      "rewards/tag_count_reward": 0.3427734375,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.35546875,
      "epoch": 0.1535181236673774,
      "grad_norm": 137.8433380126953,
      "kl": 1.69921875,
      "learning_rate": 1.98392958859863e-05,
      "loss": 0.0645,
      "reward": 0.3623046875,
      "reward_std": 0.21899614110589027,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.0078125,
      "rewards/tag_count_reward": 0.3427734375,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 647.1953125,
      "epoch": 0.15778251599147122,
      "grad_norm": 45.083709716796875,
      "kl": 2.125,
      "learning_rate": 1.9811483833941726e-05,
      "loss": 0.132,
      "reward": 0.3369140625,
      "reward_std": 0.17930956557393074,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.00390625,
      "rewards/tag_count_reward": 0.3251953125,
      "step": 37
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 651.08984375,
      "epoch": 0.16204690831556504,
      "grad_norm": 35.52851104736328,
      "kl": 1.908203125,
      "learning_rate": 1.9781476007338058e-05,
      "loss": 0.098,
      "reward": 0.345703125,
      "reward_std": 0.23194141685962677,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.00390625,
      "rewards/tag_count_reward": 0.330078125,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 648.5234375,
      "epoch": 0.16631130063965885,
      "grad_norm": 22.79519271850586,
      "kl": 2.15625,
      "learning_rate": 1.9749279121818235e-05,
      "loss": 0.058,
      "reward": 0.3427734375,
      "reward_std": 0.21174855902791023,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.00390625,
      "rewards/tag_count_reward": 0.3349609375,
      "step": 39
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 725.0078125,
      "epoch": 0.17057569296375266,
      "grad_norm": 1158.721923828125,
      "kl": 26.59375,
      "learning_rate": 1.9714900382928674e-05,
      "loss": 1.3132,
      "reward": 0.3447265625,
      "reward_std": 0.24672244489192963,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.00390625,
      "rewards/tag_count_reward": 0.3212890625,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 674.56640625,
      "epoch": 0.17484008528784648,
      "grad_norm": 10.722182273864746,
      "kl": 2.39453125,
      "learning_rate": 1.9678347484506667e-05,
      "loss": 0.0955,
      "reward": 0.3056640625,
      "reward_std": 0.2298230677843094,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.2900390625,
      "step": 41
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 716.73046875,
      "epoch": 0.1791044776119403,
      "grad_norm": 22.29323387145996,
      "kl": 2.66015625,
      "learning_rate": 1.9639628606958535e-05,
      "loss": 0.1796,
      "reward": 0.2939453125,
      "reward_std": 0.2149362936615944,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.2939453125,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 770.56640625,
      "epoch": 0.18336886993603413,
      "grad_norm": 5175.0302734375,
      "kl": 168.125,
      "learning_rate": 1.9598752415428893e-05,
      "loss": 8.1192,
      "reward": 0.3203125,
      "reward_std": 0.19998998567461967,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3203125,
      "step": 43
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 815.19140625,
      "epoch": 0.18763326226012794,
      "grad_norm": 59.13957977294922,
      "kl": 2.7734375,
      "learning_rate": 1.955572805786141e-05,
      "loss": 0.1392,
      "reward": 0.3330078125,
      "reward_std": 0.19636105746030807,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3330078125,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 823.13671875,
      "epoch": 0.19189765458422176,
      "grad_norm": 56.28653335571289,
      "kl": 2.48046875,
      "learning_rate": 1.9510565162951538e-05,
      "loss": 0.1406,
      "reward": 0.3310546875,
      "reward_std": 0.20274027064442635,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3310546875,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 809.56640625,
      "epoch": 0.19616204690831557,
      "grad_norm": 13.485371589660645,
      "kl": 2.076171875,
      "learning_rate": 1.9463273837991643e-05,
      "loss": 0.1466,
      "reward": 0.3271484375,
      "reward_std": 0.2578311152756214,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.0078125,
      "rewards/tag_count_reward": 0.3115234375,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 839.78125,
      "epoch": 0.20042643923240938,
      "grad_norm": 6.2021918296813965,
      "kl": 1.67578125,
      "learning_rate": 1.9413864666609036e-05,
      "loss": 0.1194,
      "reward": 0.3603515625,
      "reward_std": 0.21874134615063667,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0078125,
      "rewards/tag_count_reward": 0.3525390625,
      "step": 47
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 935.88671875,
      "epoch": 0.2046908315565032,
      "grad_norm": 42.63424301147461,
      "kl": 1.73828125,
      "learning_rate": 1.9362348706397374e-05,
      "loss": 0.1158,
      "reward": 0.3427734375,
      "reward_std": 0.23805152624845505,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3349609375,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 923.13671875,
      "epoch": 0.208955223880597,
      "grad_norm": 20.886306762695312,
      "kl": 1.84765625,
      "learning_rate": 1.9308737486442045e-05,
      "loss": 0.0876,
      "reward": 0.365234375,
      "reward_std": 0.24175361543893814,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.0078125,
      "rewards/tag_count_reward": 0.349609375,
      "step": 49
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 913.77734375,
      "epoch": 0.21321961620469082,
      "grad_norm": 1.078397512435913,
      "kl": 0.9013671875,
      "learning_rate": 1.9253043004739967e-05,
      "loss": 0.0613,
      "reward": 0.3681640625,
      "reward_std": 0.2707056328654289,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0234375,
      "rewards/tag_count_reward": 0.3447265625,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 924.3671875,
      "epoch": 0.21748400852878466,
      "grad_norm": 139370.5625,
      "kl": 772.5048828125,
      "learning_rate": 1.919527772551451e-05,
      "loss": 34.5749,
      "reward": 0.3916015625,
      "reward_std": 0.2611350491642952,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.01953125,
      "rewards/tag_count_reward": 0.3681640625,
      "step": 51
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 966.453125,
      "epoch": 0.22174840085287847,
      "grad_norm": 2.575350284576416,
      "kl": 0.6396484375,
      "learning_rate": 1.913545457642601e-05,
      "loss": 0.0048,
      "reward": 0.3994140625,
      "reward_std": 0.26176000386476517,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.015625,
      "rewards/tag_count_reward": 0.3759765625,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 935.90625,
      "epoch": 0.2260127931769723,
      "grad_norm": 0.6655358672142029,
      "kl": 0.625,
      "learning_rate": 1.907358694567865e-05,
      "loss": 0.0332,
      "reward": 0.3818359375,
      "reward_std": 0.30670569837093353,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0234375,
      "rewards/tag_count_reward": 0.3427734375,
      "step": 53
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 981.7109375,
      "epoch": 0.2302771855010661,
      "grad_norm": 0.49440306425094604,
      "kl": 1.32421875,
      "learning_rate": 1.900968867902419e-05,
      "loss": 0.05,
      "reward": 0.37890625,
      "reward_std": 0.30825207754969597,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.04296875,
      "rewards/tag_count_reward": 0.33203125,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1006.4765625,
      "epoch": 0.2345415778251599,
      "grad_norm": 0.6174039840698242,
      "kl": 3.51171875,
      "learning_rate": 1.8943774076663372e-05,
      "loss": 0.1368,
      "reward": 0.55078125,
      "reward_std": 0.45677174627780914,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.09375,
      "rewards/tag_count_reward": 0.421875,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 993.33984375,
      "epoch": 0.23880597014925373,
      "grad_norm": 0.6529553532600403,
      "kl": 4.8984375,
      "learning_rate": 1.8875857890045544e-05,
      "loss": 0.1925,
      "reward": 0.7568359375,
      "reward_std": 0.5871296375989914,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.171875,
      "rewards/tag_count_reward": 0.5654296875,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1012.4765625,
      "epoch": 0.24307036247334754,
      "grad_norm": 133.8551788330078,
      "kl": 4.53515625,
      "learning_rate": 1.880595531856738e-05,
      "loss": 0.1758,
      "reward": 0.806640625,
      "reward_std": 0.6075598150491714,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.22265625,
      "rewards/tag_count_reward": 0.548828125,
      "step": 57
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 996.9453125,
      "epoch": 0.24733475479744135,
      "grad_norm": 0.891619861125946,
      "kl": 2.80078125,
      "learning_rate": 1.87340820061713e-05,
      "loss": 0.0914,
      "reward": 0.732421875,
      "reward_std": 0.6083860993385315,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.2265625,
      "rewards/tag_count_reward": 0.498046875,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 967.28515625,
      "epoch": 0.2515991471215352,
      "grad_norm": 1.4940592050552368,
      "kl": 3.5234375,
      "learning_rate": 1.866025403784439e-05,
      "loss": 0.1145,
      "reward": 0.79296875,
      "reward_std": 0.6623349040746689,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.2890625,
      "rewards/tag_count_reward": 0.5,
      "step": 59
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 911.89453125,
      "epoch": 0.255863539445629,
      "grad_norm": 25.662094116210938,
      "kl": 4.6328125,
      "learning_rate": 1.8584487936018663e-05,
      "loss": 0.1482,
      "reward": 0.9228515625,
      "reward_std": 0.7258684784173965,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.33203125,
      "rewards/tag_count_reward": 0.5400390625,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 838.140625,
      "epoch": 0.2601279317697228,
      "grad_norm": 23.566726684570312,
      "kl": 6.2734375,
      "learning_rate": 1.8506800656873397e-05,
      "loss": 0.14,
      "reward": 0.90625,
      "reward_std": 0.6905761212110519,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.32421875,
      "rewards/tag_count_reward": 0.53515625,
      "step": 61
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.88671875,
      "epoch": 0.26439232409381663,
      "grad_norm": 9.581720352172852,
      "kl": 5.3984375,
      "learning_rate": 1.8427209586540392e-05,
      "loss": 0.0744,
      "reward": 0.966796875,
      "reward_std": 0.7168334871530533,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.37109375,
      "rewards/tag_count_reward": 0.560546875,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.3515625,
      "epoch": 0.26865671641791045,
      "grad_norm": 3.977918863296509,
      "kl": 5.6328125,
      "learning_rate": 1.834573253721303e-05,
      "loss": 0.0664,
      "reward": 0.9931640625,
      "reward_std": 0.7101524770259857,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.3671875,
      "rewards/tag_count_reward": 0.5908203125,
      "step": 63
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.90625,
      "epoch": 0.27292110874200426,
      "grad_norm": 3.9532861709594727,
      "kl": 4.4375,
      "learning_rate": 1.826238774315995e-05,
      "loss": -0.0383,
      "reward": 1.2724609375,
      "reward_std": 0.7493992298841476,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.5703125,
      "rewards/tag_count_reward": 0.6552734375,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 219.54296875,
      "epoch": 0.2771855010660981,
      "grad_norm": 9.081878662109375,
      "kl": 5.0,
      "learning_rate": 1.8177193856644315e-05,
      "loss": 0.029,
      "reward": 1.5458984375,
      "reward_std": 0.7314303368330002,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.69921875,
      "rewards/tag_count_reward": 0.8076171875,
      "step": 65
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 172.1484375,
      "epoch": 0.2814498933901919,
      "grad_norm": 123.24443817138672,
      "kl": 8.5546875,
      "learning_rate": 1.8090169943749477e-05,
      "loss": 0.1148,
      "reward": 1.3759765625,
      "reward_std": 0.7652620077133179,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.6015625,
      "rewards/tag_count_reward": 0.7705078125,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.49609375,
      "epoch": 0.2857142857142857,
      "grad_norm": 6.339594841003418,
      "kl": 5.8203125,
      "learning_rate": 1.8001335480112067e-05,
      "loss": 0.0783,
      "reward": 1.376953125,
      "reward_std": 0.6871647387742996,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.56640625,
      "rewards/tag_count_reward": 0.810546875,
      "step": 67
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.2734375,
      "epoch": 0.2899786780383795,
      "grad_norm": 181.54469299316406,
      "kl": 9.875,
      "learning_rate": 1.7910710346563417e-05,
      "loss": 0.2282,
      "reward": 1.689453125,
      "reward_std": 0.574043981730938,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.80078125,
      "rewards/tag_count_reward": 0.869140625,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.546875,
      "epoch": 0.2942430703624733,
      "grad_norm": 23.90792465209961,
      "kl": 4.12890625,
      "learning_rate": 1.78183148246803e-05,
      "loss": -0.0867,
      "reward": 1.49609375,
      "reward_std": 0.7586368173360825,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.703125,
      "rewards/tag_count_reward": 0.78125,
      "step": 69
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.2109375,
      "epoch": 0.29850746268656714,
      "grad_norm": 6.664966106414795,
      "kl": 4.35546875,
      "learning_rate": 1.7724169592245996e-05,
      "loss": -0.1123,
      "reward": 1.3564453125,
      "reward_std": 0.7493429481983185,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.62890625,
      "rewards/tag_count_reward": 0.7275390625,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.6171875,
      "epoch": 0.302771855010661,
      "grad_norm": 520.9791259765625,
      "kl": 14.2890625,
      "learning_rate": 1.7628295718622666e-05,
      "loss": 0.2477,
      "reward": 1.4765625,
      "reward_std": 0.7755448371171951,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.67578125,
      "rewards/tag_count_reward": 0.765625,
      "step": 71
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.9296875,
      "epoch": 0.3070362473347548,
      "grad_norm": 9.297532081604004,
      "kl": 4.171875,
      "learning_rate": 1.7530714660036112e-05,
      "loss": -0.0591,
      "reward": 1.576171875,
      "reward_std": 0.702255368232727,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.7265625,
      "rewards/tag_count_reward": 0.810546875,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.53515625,
      "epoch": 0.31130063965884863,
      "grad_norm": 481.652099609375,
      "kl": 26.50390625,
      "learning_rate": 1.7431448254773943e-05,
      "loss": 0.4083,
      "reward": 1.6875,
      "reward_std": 0.5314841717481613,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.8125,
      "rewards/tag_count_reward": 0.87109375,
      "step": 73
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.23046875,
      "epoch": 0.31556503198294245,
      "grad_norm": 7.763786315917969,
      "kl": 4.296875,
      "learning_rate": 1.7330518718298263e-05,
      "loss": 0.0646,
      "reward": 1.7587890625,
      "reward_std": 0.5207200050354004,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.83203125,
      "rewards/tag_count_reward": 0.8955078125,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.81640625,
      "epoch": 0.31982942430703626,
      "grad_norm": 17.239259719848633,
      "kl": 5.734375,
      "learning_rate": 1.7227948638273918e-05,
      "loss": 0.135,
      "reward": 1.919921875,
      "reward_std": 0.3152705281972885,
      "rewards/accuracy_reward": 0.04296875,
      "rewards/format_reward": 0.921875,
      "rewards/tag_count_reward": 0.955078125,
      "step": 75
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.79296875,
      "epoch": 0.32409381663113007,
      "grad_norm": 8.510507583618164,
      "kl": 4.6171875,
      "learning_rate": 1.712376096951345e-05,
      "loss": 0.117,
      "reward": 1.900390625,
      "reward_std": 0.32303596287965775,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.91796875,
      "rewards/tag_count_reward": 0.943359375,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.20703125,
      "epoch": 0.3283582089552239,
      "grad_norm": 13.03882884979248,
      "kl": 5.109375,
      "learning_rate": 1.7017979028839918e-05,
      "loss": 0.1378,
      "reward": 1.8974609375,
      "reward_std": 0.3129582107067108,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.91796875,
      "rewards/tag_count_reward": 0.9482421875,
      "step": 77
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.91015625,
      "epoch": 0.3326226012793177,
      "grad_norm": 14.898639678955078,
      "kl": 5.84375,
      "learning_rate": 1.691062648986865e-05,
      "loss": 0.1679,
      "reward": 1.8828125,
      "reward_std": 0.28449319303035736,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.92578125,
      "rewards/tag_count_reward": 0.953125,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.80859375,
      "epoch": 0.3368869936034115,
      "grad_norm": 41.616432189941406,
      "kl": 6.03125,
      "learning_rate": 1.6801727377709195e-05,
      "loss": 0.1764,
      "reward": 1.939453125,
      "reward_std": 0.24111925438046455,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.9453125,
      "rewards/tag_count_reward": 0.970703125,
      "step": 79
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 178.0546875,
      "epoch": 0.3411513859275053,
      "grad_norm": 40.391815185546875,
      "kl": 7.078125,
      "learning_rate": 1.6691306063588583e-05,
      "loss": 0.1877,
      "reward": 1.896484375,
      "reward_std": 0.24799961294047534,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.94140625,
      "rewards/tag_count_reward": 0.955078125,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 207.1484375,
      "epoch": 0.34541577825159914,
      "grad_norm": 53.5943489074707,
      "kl": 7.96875,
      "learning_rate": 1.657938725939713e-05,
      "loss": 0.2265,
      "reward": 1.8984375,
      "reward_std": 0.25493185594677925,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.94140625,
      "rewards/tag_count_reward": 0.953125,
      "step": 81
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.5625,
      "epoch": 0.34968017057569295,
      "grad_norm": 9.949625015258789,
      "kl": 6.1015625,
      "learning_rate": 1.6465996012157996e-05,
      "loss": 0.1384,
      "reward": 1.8525390625,
      "reward_std": 0.3406095430254936,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.9140625,
      "rewards/tag_count_reward": 0.9384765625,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 232.71875,
      "epoch": 0.35394456289978676,
      "grad_norm": 11.608429908752441,
      "kl": 5.5390625,
      "learning_rate": 1.635115769842179e-05,
      "loss": 0.1642,
      "reward": 1.8603515625,
      "reward_std": 0.319538950920105,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.90234375,
      "rewards/tag_count_reward": 0.9541015625,
      "step": 83
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 196.1328125,
      "epoch": 0.3582089552238806,
      "grad_norm": 7.774857044219971,
      "kl": 5.359375,
      "learning_rate": 1.6234898018587336e-05,
      "loss": 0.1484,
      "reward": 1.841796875,
      "reward_std": 0.35672812163829803,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.89453125,
      "rewards/tag_count_reward": 0.947265625,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 184.19921875,
      "epoch": 0.3624733475479744,
      "grad_norm": 5.315440654754639,
      "kl": 5.0234375,
      "learning_rate": 1.6117242991150064e-05,
      "loss": 0.1525,
      "reward": 1.9189453125,
      "reward_std": 0.21933256834745407,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.94921875,
      "rewards/tag_count_reward": 0.9619140625,
      "step": 85
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 193.97265625,
      "epoch": 0.36673773987206826,
      "grad_norm": 5.736013889312744,
      "kl": 5.515625,
      "learning_rate": 1.599821894687914e-05,
      "loss": 0.1875,
      "reward": 1.9306640625,
      "reward_std": 0.20439787581562996,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.94921875,
      "rewards/tag_count_reward": 0.9736328125,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.3984375,
      "epoch": 0.37100213219616207,
      "grad_norm": 8.90512752532959,
      "kl": 5.5703125,
      "learning_rate": 1.5877852522924733e-05,
      "loss": 0.1698,
      "reward": 1.91015625,
      "reward_std": 0.33383994549512863,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.91796875,
      "rewards/tag_count_reward": 0.953125,
      "step": 87
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 293.015625,
      "epoch": 0.3752665245202559,
      "grad_norm": 102.06912231445312,
      "kl": 10.2578125,
      "learning_rate": 1.575617065685674e-05,
      "loss": 0.3011,
      "reward": 1.890625,
      "reward_std": 0.31814195960760117,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.90234375,
      "rewards/tag_count_reward": 0.953125,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 336.6796875,
      "epoch": 0.3795309168443497,
      "grad_norm": 108.87593841552734,
      "kl": 11.6640625,
      "learning_rate": 1.563320058063622e-05,
      "loss": 0.2676,
      "reward": 1.8369140625,
      "reward_std": 0.38644537329673767,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.8671875,
      "rewards/tag_count_reward": 0.9345703125,
      "step": 89
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.29296875,
      "epoch": 0.3837953091684435,
      "grad_norm": 35.86373519897461,
      "kl": 8.4296875,
      "learning_rate": 1.5508969814521026e-05,
      "loss": 0.2346,
      "reward": 1.8154296875,
      "reward_std": 0.4089268818497658,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.87109375,
      "rewards/tag_count_reward": 0.9404296875,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.03125,
      "epoch": 0.3880597014925373,
      "grad_norm": 4.703104496002197,
      "kl": 5.8359375,
      "learning_rate": 1.5383506160906826e-05,
      "loss": 0.1736,
      "reward": 1.8583984375,
      "reward_std": 0.37071677297353745,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.88671875,
      "rewards/tag_count_reward": 0.9521484375,
      "step": 91
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.890625,
      "epoch": 0.39232409381663114,
      "grad_norm": 15.804770469665527,
      "kl": 6.359375,
      "learning_rate": 1.5256837698105047e-05,
      "loss": 0.2056,
      "reward": 1.896484375,
      "reward_std": 0.264212965965271,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.921875,
      "rewards/tag_count_reward": 0.962890625,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.484375,
      "epoch": 0.39658848614072495,
      "grad_norm": 43.44738006591797,
      "kl": 7.046875,
      "learning_rate": 1.5128992774059063e-05,
      "loss": 0.1825,
      "reward": 1.84375,
      "reward_std": 0.37193765491247177,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.890625,
      "rewards/tag_count_reward": 0.94140625,
      "step": 93
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 690.60546875,
      "epoch": 0.40085287846481876,
      "grad_norm": 3.9883878231048584,
      "kl": 5.6875,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.1577,
      "reward": 1.796875,
      "reward_std": 0.449543721973896,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.8515625,
      "rewards/tag_count_reward": 0.9140625,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 710.62890625,
      "epoch": 0.4051172707889126,
      "grad_norm": 13.03452205657959,
      "kl": 5.1953125,
      "learning_rate": 1.4869888244043674e-05,
      "loss": 0.1824,
      "reward": 1.794921875,
      "reward_std": 0.44430477917194366,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.859375,
      "rewards/tag_count_reward": 0.927734375,
      "step": 95
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 679.2578125,
      "epoch": 0.4093816631130064,
      "grad_norm": 4.490772724151611,
      "kl": 5.296875,
      "learning_rate": 1.4738686624729987e-05,
      "loss": 0.1653,
      "reward": 1.80859375,
      "reward_std": 0.35829880461096764,
      "rewards/accuracy_reward": 0.02734375,
      "rewards/format_reward": 0.8515625,
      "rewards/tag_count_reward": 0.9296875,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 880.9765625,
      "epoch": 0.4136460554371002,
      "grad_norm": 150.7144317626953,
      "kl": 6.5390625,
      "learning_rate": 1.4606424504506325e-05,
      "loss": 0.2454,
      "reward": 1.5869140625,
      "reward_std": 0.5404268652200699,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.76953125,
      "rewards/tag_count_reward": 0.7822265625,
      "step": 97
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 945.01953125,
      "epoch": 0.417910447761194,
      "grad_norm": 216.19607543945312,
      "kl": 15.546875,
      "learning_rate": 1.4473131483156326e-05,
      "loss": 0.3319,
      "reward": 1.4111328125,
      "reward_std": 0.6219311505556107,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.6875,
      "rewards/tag_count_reward": 0.7001953125,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 988.53515625,
      "epoch": 0.42217484008528783,
      "grad_norm": 137.95619201660156,
      "kl": 6.5,
      "learning_rate": 1.4338837391175582e-05,
      "loss": 0.2236,
      "reward": 1.45703125,
      "reward_std": 0.6083492934703827,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.70703125,
      "rewards/tag_count_reward": 0.7265625,
      "step": 99
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 985.140625,
      "epoch": 0.42643923240938164,
      "grad_norm": 7.844208240509033,
      "kl": 1.84375,
      "learning_rate": 1.4203572283095657e-05,
      "loss": 0.039,
      "reward": 1.4658203125,
      "reward_std": 0.6321621090173721,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.69140625,
      "rewards/tag_count_reward": 0.7431640625,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 992.00390625,
      "epoch": 0.43070362473347545,
      "grad_norm": 13.683513641357422,
      "kl": 1.30078125,
      "learning_rate": 1.4067366430758004e-05,
      "loss": 0.0205,
      "reward": 1.4462890625,
      "reward_std": 0.6124080866575241,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.71875,
      "rewards/tag_count_reward": 0.6806640625,
      "step": 101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 998.76171875,
      "epoch": 0.4349680170575693,
      "grad_norm": 30.369285583496094,
      "kl": 1.1240234375,
      "learning_rate": 1.3930250316539237e-05,
      "loss": 0.0296,
      "reward": 1.4365234375,
      "reward_std": 0.6077300161123276,
      "rewards/accuracy_reward": 0.02734375,
      "rewards/format_reward": 0.7109375,
      "rewards/tag_count_reward": 0.6982421875,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1007.33984375,
      "epoch": 0.43923240938166314,
      "grad_norm": 22.23171615600586,
      "kl": 3.173828125,
      "learning_rate": 1.3792254626529286e-05,
      "loss": 0.1053,
      "reward": 1.39453125,
      "reward_std": 0.5931012779474258,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.68359375,
      "rewards/tag_count_reward": 0.6796875,
      "step": 103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1018.3046875,
      "epoch": 0.44349680170575695,
      "grad_norm": 32.721920013427734,
      "kl": 2.7041015625,
      "learning_rate": 1.3653410243663953e-05,
      "loss": 0.1054,
      "reward": 1.4375,
      "reward_std": 0.5352352559566498,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.74609375,
      "rewards/tag_count_reward": 0.68359375,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 983.671875,
      "epoch": 0.44776119402985076,
      "grad_norm": 21.012828826904297,
      "kl": 2.029296875,
      "learning_rate": 1.3513748240813429e-05,
      "loss": 0.0617,
      "reward": 1.44140625,
      "reward_std": 0.5487575381994247,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.71484375,
      "rewards/tag_count_reward": 0.69140625,
      "step": 105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1009.48828125,
      "epoch": 0.4520255863539446,
      "grad_norm": 8.625335693359375,
      "kl": 1.4072265625,
      "learning_rate": 1.3373299873828303e-05,
      "loss": 0.0492,
      "reward": 1.4296875,
      "reward_std": 0.5546326637268066,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.703125,
      "rewards/tag_count_reward": 0.69140625,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1024.0,
      "epoch": 0.4562899786780384,
      "grad_norm": 3.2243165969848633,
      "kl": 0.8115234375,
      "learning_rate": 1.3232096574544602e-05,
      "loss": 0.0324,
      "reward": 1.462890625,
      "reward_std": 0.5354997888207436,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.72265625,
      "rewards/tag_count_reward": 0.701171875,
      "step": 107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1020.35546875,
      "epoch": 0.4605543710021322,
      "grad_norm": 1.6773790121078491,
      "kl": 0.9384765625,
      "learning_rate": 1.3090169943749475e-05,
      "loss": 0.0316,
      "reward": 1.3544921875,
      "reward_std": 0.6066916137933731,
      "rewards/accuracy_reward": 0.02734375,
      "rewards/format_reward": 0.6328125,
      "rewards/tag_count_reward": 0.6943359375,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 934.0625,
      "epoch": 0.464818763326226,
      "grad_norm": 0.25028663873672485,
      "kl": 3.5703125,
      "learning_rate": 1.2947551744109044e-05,
      "loss": 0.1428,
      "reward": 1.7275390625,
      "reward_std": 0.30690931528806686,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.94140625,
      "rewards/tag_count_reward": 0.7158203125,
      "step": 109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 894.3125,
      "epoch": 0.4690831556503198,
      "grad_norm": 0.25236231088638306,
      "kl": 4.31640625,
      "learning_rate": 1.2804273893060028e-05,
      "loss": 0.1724,
      "reward": 1.5966796875,
      "reward_std": 0.3756791800260544,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.86328125,
      "rewards/tag_count_reward": 0.7099609375,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 843.46875,
      "epoch": 0.47334754797441364,
      "grad_norm": 0.30303165316581726,
      "kl": 4.3515625,
      "learning_rate": 1.2660368455666752e-05,
      "loss": 0.174,
      "reward": 1.6923828125,
      "reward_std": 0.36458854377269745,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.9296875,
      "rewards/tag_count_reward": 0.7041015625,
      "step": 111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 846.1875,
      "epoch": 0.47761194029850745,
      "grad_norm": 0.30785125494003296,
      "kl": 4.8515625,
      "learning_rate": 1.2515867637445088e-05,
      "loss": 0.1944,
      "reward": 1.65234375,
      "reward_std": 0.35947033017873764,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.91015625,
      "rewards/tag_count_reward": 0.7421875,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1001.59375,
      "epoch": 0.48187633262260127,
      "grad_norm": 0.5503849983215332,
      "kl": 3.1875,
      "learning_rate": 1.2370803777154976e-05,
      "loss": 0.1275,
      "reward": 0.92578125,
      "reward_std": 0.40457524359226227,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.171875,
      "rewards/tag_count_reward": 0.73828125,
      "step": 113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 742.28125,
      "epoch": 0.4861407249466951,
      "grad_norm": 0.6809885501861572,
      "kl": 5.1484375,
      "learning_rate": 1.2225209339563144e-05,
      "loss": 0.2059,
      "reward": 1.7626953125,
      "reward_std": 0.38498707860708237,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.9140625,
      "rewards/tag_count_reward": 0.8095703125,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 575.97265625,
      "epoch": 0.4904051172707889,
      "grad_norm": 0.8168994784355164,
      "kl": 4.984375,
      "learning_rate": 1.2079116908177592e-05,
      "loss": 0.1925,
      "reward": 1.8603515625,
      "reward_std": 0.43856722861528397,
      "rewards/accuracy_reward": 0.06640625,
      "rewards/format_reward": 0.84765625,
      "rewards/tag_count_reward": 0.9462890625,
      "step": 115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 859.1875,
      "epoch": 0.4946695095948827,
      "grad_norm": 0.32246819138526917,
      "kl": 4.65625,
      "learning_rate": 1.1932559177955533e-05,
      "loss": 0.1858,
      "reward": 1.6337890625,
      "reward_std": 0.3074583485722542,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.890625,
      "rewards/tag_count_reward": 0.7314453125,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1009.09375,
      "epoch": 0.4989339019189765,
      "grad_norm": 0.2883855402469635,
      "kl": 2.7890625,
      "learning_rate": 1.1785568947986368e-05,
      "loss": 0.1117,
      "reward": 1.8154296875,
      "reward_std": 0.2801100164651871,
      "rewards/accuracy_reward": 0.12109375,
      "rewards/format_reward": 0.9609375,
      "rewards/tag_count_reward": 0.7333984375,
      "step": 117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1024.0,
      "epoch": 0.5031982942430704,
      "grad_norm": 0.5340821146965027,
      "kl": 2.125,
      "learning_rate": 1.1638179114151378e-05,
      "loss": 0.0849,
      "reward": 1.6708984375,
      "reward_std": 0.2677147090435028,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.92578125,
      "rewards/tag_count_reward": 0.7255859375,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 951.5625,
      "epoch": 0.5074626865671642,
      "grad_norm": 0.3258584141731262,
      "kl": 2.87109375,
      "learning_rate": 1.1490422661761744e-05,
      "loss": 0.1149,
      "reward": 1.71875,
      "reward_std": 0.1409970298409462,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.96484375,
      "rewards/tag_count_reward": 0.7421875,
      "step": 119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 948.03125,
      "epoch": 0.511727078891258,
      "grad_norm": 0.20516642928123474,
      "kl": 2.56640625,
      "learning_rate": 1.1342332658176556e-05,
      "loss": 0.1026,
      "reward": 1.7783203125,
      "reward_std": 0.21998512372374535,
      "rewards/accuracy_reward": 0.07421875,
      "rewards/format_reward": 0.96484375,
      "rewards/tag_count_reward": 0.7392578125,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 949.3125,
      "epoch": 0.5159914712153518,
      "grad_norm": 0.15999875962734222,
      "kl": 2.73828125,
      "learning_rate": 1.1193942245402443e-05,
      "loss": 0.1093,
      "reward": 1.7880859375,
      "reward_std": 0.1588208805769682,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.96484375,
      "rewards/tag_count_reward": 0.7451171875,
      "step": 121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 996.125,
      "epoch": 0.5202558635394456,
      "grad_norm": 0.2390127331018448,
      "kl": 2.75,
      "learning_rate": 1.1045284632676535e-05,
      "loss": 0.1098,
      "reward": 1.76171875,
      "reward_std": 0.22831767983734608,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.953125,
      "rewards/tag_count_reward": 0.73046875,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 972.6796875,
      "epoch": 0.5245202558635395,
      "grad_norm": 4.8665361404418945,
      "kl": 3.66796875,
      "learning_rate": 1.0896393089034336e-05,
      "loss": 0.1313,
      "reward": 1.6845703125,
      "reward_std": 0.36246033012866974,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.88671875,
      "rewards/tag_count_reward": 0.7041015625,
      "step": 123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 888.3046875,
      "epoch": 0.5287846481876333,
      "grad_norm": 3.6568827629089355,
      "kl": 2.06640625,
      "learning_rate": 1.0747300935864245e-05,
      "loss": 0.0925,
      "reward": 1.68359375,
      "reward_std": 0.4343060404062271,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.8828125,
      "rewards/tag_count_reward": 0.75,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.43359375,
      "epoch": 0.5330490405117271,
      "grad_norm": 0.5316474437713623,
      "kl": 0.61767578125,
      "learning_rate": 1.0598041539450344e-05,
      "loss": 0.2445,
      "reward": 1.7685546875,
      "reward_std": 0.4253704324364662,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.89453125,
      "rewards/tag_count_reward": 0.8349609375,
      "step": 125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.5546875,
      "epoch": 0.5373134328358209,
      "grad_norm": 2.9844846725463867,
      "kl": 0.8173828125,
      "learning_rate": 1.044864830350515e-05,
      "loss": 0.2749,
      "reward": 1.833984375,
      "reward_std": 0.523324653506279,
      "rewards/accuracy_reward": 0.10546875,
      "rewards/format_reward": 0.84375,
      "rewards/tag_count_reward": 0.884765625,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.921875,
      "epoch": 0.5415778251599147,
      "grad_norm": 0.5743687748908997,
      "kl": 0.84765625,
      "learning_rate": 1.0299154661693987e-05,
      "loss": 0.2714,
      "reward": 1.771484375,
      "reward_std": 0.5503488332033157,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.83203125,
      "rewards/tag_count_reward": 0.880859375,
      "step": 127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.37109375,
      "epoch": 0.5458422174840085,
      "grad_norm": 6.451872825622559,
      "kl": 1.234375,
      "learning_rate": 1.0149594070152638e-05,
      "loss": 0.3969,
      "reward": 1.7021484375,
      "reward_std": 0.6392623782157898,
      "rewards/accuracy_reward": 0.06640625,
      "rewards/format_reward": 0.78125,
      "rewards/tag_count_reward": 0.8544921875,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.671875,
      "epoch": 0.5501066098081023,
      "grad_norm": 2.481407403945923,
      "kl": 0.986328125,
      "learning_rate": 1e-05,
      "loss": 0.4003,
      "reward": 1.615234375,
      "reward_std": 0.6238291710615158,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.7421875,
      "rewards/tag_count_reward": 0.837890625,
      "step": 129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.88671875,
      "epoch": 0.5543710021321961,
      "grad_norm": 4.6952948570251465,
      "kl": 0.55078125,
      "learning_rate": 9.850405929847367e-06,
      "loss": 0.413,
      "reward": 1.654296875,
      "reward_std": 0.6841937601566315,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.7421875,
      "rewards/tag_count_reward": 0.841796875,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.3828125,
      "epoch": 0.55863539445629,
      "grad_norm": 10.949110984802246,
      "kl": 0.5146484375,
      "learning_rate": 9.700845338306018e-06,
      "loss": 0.4342,
      "reward": 1.7568359375,
      "reward_std": 0.5640043765306473,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.81640625,
      "rewards/tag_count_reward": 0.8935546875,
      "step": 131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.46875,
      "epoch": 0.5628997867803838,
      "grad_norm": 7.129451274871826,
      "kl": 0.41796875,
      "learning_rate": 9.551351696494854e-06,
      "loss": 0.462,
      "reward": 1.6328125,
      "reward_std": 0.7138571888208389,
      "rewards/accuracy_reward": 0.07421875,
      "rewards/format_reward": 0.7265625,
      "rewards/tag_count_reward": 0.83203125,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 378.390625,
      "epoch": 0.5671641791044776,
      "grad_norm": 5.389857769012451,
      "kl": 0.6474609375,
      "learning_rate": 9.401958460549658e-06,
      "loss": 0.4062,
      "reward": 1.69921875,
      "reward_std": 0.5953380540013313,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.78515625,
      "rewards/tag_count_reward": 0.8828125,
      "step": 133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.63671875,
      "epoch": 0.5714285714285714,
      "grad_norm": 8.098217964172363,
      "kl": 0.6748046875,
      "learning_rate": 9.252699064135759e-06,
      "loss": 0.5274,
      "reward": 1.68359375,
      "reward_std": 0.6231431663036346,
      "rewards/accuracy_reward": 0.04296875,
      "rewards/format_reward": 0.76953125,
      "rewards/tag_count_reward": 0.87109375,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 371.6953125,
      "epoch": 0.5756929637526652,
      "grad_norm": 27.047813415527344,
      "kl": 6.0146484375,
      "learning_rate": 9.103606910965666e-06,
      "loss": 0.4173,
      "reward": 1.7587890625,
      "reward_std": 0.477617509663105,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.7890625,
      "rewards/tag_count_reward": 0.8759765625,
      "step": 135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 388.03125,
      "epoch": 0.579957356076759,
      "grad_norm": 72.6392822265625,
      "kl": 33.333984375,
      "learning_rate": 8.954715367323468e-06,
      "loss": 0.5359,
      "reward": 1.5771484375,
      "reward_std": 0.65767702460289,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.71484375,
      "rewards/tag_count_reward": 0.8388671875,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.26953125,
      "epoch": 0.5842217484008528,
      "grad_norm": 11.781960487365723,
      "kl": 3.19140625,
      "learning_rate": 8.806057754597559e-06,
      "loss": 0.3497,
      "reward": 1.1142578125,
      "reward_std": 0.6293385028839111,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.40625,
      "rewards/tag_count_reward": 0.6923828125,
      "step": 137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.92578125,
      "epoch": 0.5884861407249466,
      "grad_norm": 10.908761978149414,
      "kl": 2.56640625,
      "learning_rate": 8.657667341823449e-06,
      "loss": 0.089,
      "reward": 0.552734375,
      "reward_std": 0.22833332046866417,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.05078125,
      "rewards/tag_count_reward": 0.501953125,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 164.50390625,
      "epoch": 0.5927505330490405,
      "grad_norm": 1.4357022047042847,
      "kl": 0.38916015625,
      "learning_rate": 8.509577338238255e-06,
      "loss": 0.3546,
      "reward": 0.4619140625,
      "reward_std": 0.0770116988569498,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4619140625,
      "step": 139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 236.9140625,
      "epoch": 0.5970149253731343,
      "grad_norm": 1.1441797018051147,
      "kl": 0.32080078125,
      "learning_rate": 8.361820885848623e-06,
      "loss": 0.1043,
      "reward": 0.3369140625,
      "reward_std": 0.11966157145798206,
      "rewards/accuracy_reward": 0.00390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3330078125,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.41796875,
      "epoch": 0.6012793176972282,
      "grad_norm": 6.6605143547058105,
      "kl": 0.4736328125,
      "learning_rate": 8.214431052013636e-06,
      "loss": 0.0359,
      "reward": 0.6025390625,
      "reward_std": 0.21631848067045212,
      "rewards/accuracy_reward": 0.06640625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5361328125,
      "step": 141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 291.44921875,
      "epoch": 0.605543710021322,
      "grad_norm": 29.841733932495117,
      "kl": 0.37939453125,
      "learning_rate": 8.06744082204447e-06,
      "loss": 0.1329,
      "reward": 0.7060546875,
      "reward_std": 0.25769177079200745,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5888671875,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.703125,
      "epoch": 0.6098081023454158,
      "grad_norm": 22.494600296020508,
      "kl": 1.2724609375,
      "learning_rate": 7.92088309182241e-06,
      "loss": -0.003,
      "reward": 0.61328125,
      "reward_std": 0.2214067205786705,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5625,
      "step": 143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 272.9921875,
      "epoch": 0.6140724946695096,
      "grad_norm": 3.0637097358703613,
      "kl": 0.34814453125,
      "learning_rate": 7.774790660436857e-06,
      "loss": -0.0925,
      "reward": 0.5869140625,
      "reward_std": 0.22308824211359024,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5478515625,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 303.21875,
      "epoch": 0.6183368869936035,
      "grad_norm": 3.038789987564087,
      "kl": 0.57373046875,
      "learning_rate": 7.629196222845027e-06,
      "loss": -0.0695,
      "reward": 0.6015625,
      "reward_std": 0.1990872472524643,
      "rewards/accuracy_reward": 0.02734375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.57421875,
      "step": 145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.98828125,
      "epoch": 0.6226012793176973,
      "grad_norm": 3.982813835144043,
      "kl": 1.84765625,
      "learning_rate": 7.484132362554915e-06,
      "loss": -0.1056,
      "reward": 0.61328125,
      "reward_std": 0.24527693167328835,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.57421875,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.8359375,
      "epoch": 0.6268656716417911,
      "grad_norm": 1.170094609260559,
      "kl": 1.3681640625,
      "learning_rate": 7.33963154433325e-06,
      "loss": -0.1068,
      "reward": 0.609375,
      "reward_std": 0.203267153352499,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.578125,
      "step": 147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 344.03125,
      "epoch": 0.6311300639658849,
      "grad_norm": 3.609171152114868,
      "kl": 1.33203125,
      "learning_rate": 7.1957261069399745e-06,
      "loss": -0.1631,
      "reward": 0.6796875,
      "reward_std": 0.21126757562160492,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.62109375,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.6640625,
      "epoch": 0.6353944562899787,
      "grad_norm": 1.0008127689361572,
      "kl": 1.52734375,
      "learning_rate": 7.052448255890958e-06,
      "loss": -0.2083,
      "reward": 0.7255859375,
      "reward_std": 0.29479434341192245,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6083984375,
      "step": 149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.80859375,
      "epoch": 0.6396588486140725,
      "grad_norm": 0.9753682017326355,
      "kl": 0.650390625,
      "learning_rate": 6.909830056250527e-06,
      "loss": -0.196,
      "reward": 0.748046875,
      "reward_std": 0.2531566210091114,
      "rewards/accuracy_reward": 0.08984375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.658203125,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 808.75,
      "epoch": 0.6439232409381663,
      "grad_norm": 0.5874699950218201,
      "kl": 0.8330078125,
      "learning_rate": 6.767903425455402e-06,
      "loss": -0.122,
      "reward": 0.6337890625,
      "reward_std": 0.2824634090065956,
      "rewards/accuracy_reward": 0.12890625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5048828125,
      "step": 151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 793.7578125,
      "epoch": 0.6481876332622601,
      "grad_norm": 0.6901421546936035,
      "kl": 1.171875,
      "learning_rate": 6.6267001261717015e-06,
      "loss": -0.0709,
      "reward": 0.70703125,
      "reward_std": 0.2805519849061966,
      "rewards/accuracy_reward": 0.140625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.56640625,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.5,
      "epoch": 0.652452025586354,
      "grad_norm": 1.2642836570739746,
      "kl": 6.0654296875,
      "learning_rate": 6.486251759186573e-06,
      "loss": -0.1338,
      "reward": 0.72265625,
      "reward_std": 0.28466814011335373,
      "rewards/accuracy_reward": 0.23046875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4921875,
      "step": 153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.890625,
      "epoch": 0.6567164179104478,
      "grad_norm": 0.3763836622238159,
      "kl": 0.4189453125,
      "learning_rate": 6.34658975633605e-06,
      "loss": -0.0951,
      "reward": 0.697265625,
      "reward_std": 0.2551993578672409,
      "rewards/accuracy_reward": 0.19921875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.498046875,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.17578125,
      "epoch": 0.6609808102345416,
      "grad_norm": 0.6317035555839539,
      "kl": 0.52490234375,
      "learning_rate": 6.207745373470717e-06,
      "loss": -0.1346,
      "reward": 0.7265625,
      "reward_std": 0.32422181963920593,
      "rewards/accuracy_reward": 0.23046875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.49609375,
      "step": 155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 702.796875,
      "epoch": 0.6652452025586354,
      "grad_norm": 0.3873419165611267,
      "kl": 0.81591796875,
      "learning_rate": 6.069749683460765e-06,
      "loss": -0.1725,
      "reward": 0.6943359375,
      "reward_std": 0.2808499410748482,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5810546875,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.75390625,
      "epoch": 0.6695095948827292,
      "grad_norm": 0.37135419249534607,
      "kl": 0.52587890625,
      "learning_rate": 5.932633569242e-06,
      "loss": -0.041,
      "reward": 0.6240234375,
      "reward_std": 0.19439143873751163,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5732421875,
      "step": 157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 676.12890625,
      "epoch": 0.673773987206823,
      "grad_norm": 0.3440045118331909,
      "kl": 0.49658203125,
      "learning_rate": 5.796427716904347e-06,
      "loss": -0.1016,
      "reward": 0.7001953125,
      "reward_std": 0.252426378428936,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5830078125,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.26953125,
      "epoch": 0.6780383795309168,
      "grad_norm": 0.4159948527812958,
      "kl": 0.88134765625,
      "learning_rate": 5.66116260882442e-06,
      "loss": -0.1264,
      "reward": 0.642578125,
      "reward_std": 0.18874739110469818,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.623046875,
      "step": 159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.328125,
      "epoch": 0.6823027718550106,
      "grad_norm": 0.38798099756240845,
      "kl": 0.79736328125,
      "learning_rate": 5.526868516843673e-06,
      "loss": -0.0926,
      "reward": 0.708984375,
      "reward_std": 0.22118790447711945,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.658203125,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 447.8125,
      "epoch": 0.6865671641791045,
      "grad_norm": 0.4147135615348816,
      "kl": 0.64111328125,
      "learning_rate": 5.393575495493679e-06,
      "loss": -0.1075,
      "reward": 0.732421875,
      "reward_std": 0.18555288948118687,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.662109375,
      "step": 161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.30078125,
      "epoch": 0.6908315565031983,
      "grad_norm": 0.5294929146766663,
      "kl": 0.58642578125,
      "learning_rate": 5.2613133752700145e-06,
      "loss": -0.1284,
      "reward": 0.66796875,
      "reward_std": 0.1776830367743969,
      "rewards/accuracy_reward": 0.01171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.65625,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.0625,
      "epoch": 0.6950959488272921,
      "grad_norm": 0.5291323065757751,
      "kl": 0.830078125,
      "learning_rate": 5.130111755956327e-06,
      "loss": -0.1563,
      "reward": 0.7099609375,
      "reward_std": 0.19628439471125603,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6630859375,
      "step": 163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.12890625,
      "epoch": 0.6993603411513859,
      "grad_norm": 0.4588962197303772,
      "kl": 0.73583984375,
      "learning_rate": 5.000000000000003e-06,
      "loss": -0.1004,
      "reward": 0.7626953125,
      "reward_std": 0.17791462130844593,
      "rewards/accuracy_reward": 0.06640625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6962890625,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.578125,
      "epoch": 0.7036247334754797,
      "grad_norm": 0.8297274708747864,
      "kl": 1.7900390625,
      "learning_rate": 4.87100722594094e-06,
      "loss": -0.0991,
      "reward": 0.7421875,
      "reward_std": 0.17338587157428265,
      "rewards/accuracy_reward": 0.04296875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.69921875,
      "step": 165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 316.98828125,
      "epoch": 0.7078891257995735,
      "grad_norm": 0.9038926362991333,
      "kl": 1.57470703125,
      "learning_rate": 4.743162301894952e-06,
      "loss": -0.0521,
      "reward": 0.7744140625,
      "reward_std": 0.14399663731455803,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7119140625,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.609375,
      "epoch": 0.7121535181236673,
      "grad_norm": 3.5091426372528076,
      "kl": 1.41943359375,
      "learning_rate": 4.616493839093179e-06,
      "loss": -0.0394,
      "reward": 0.791015625,
      "reward_std": 0.1766387764364481,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.697265625,
      "step": 167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 290.44921875,
      "epoch": 0.7164179104477612,
      "grad_norm": 2.227064847946167,
      "kl": 1.279296875,
      "learning_rate": 4.491030185478976e-06,
      "loss": -0.0156,
      "reward": 0.7197265625,
      "reward_std": 0.10716542787849903,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7041015625,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.54296875,
      "epoch": 0.720682302771855,
      "grad_norm": 5.702210426330566,
      "kl": 1.513671875,
      "learning_rate": 4.3667994193637794e-06,
      "loss": 0.0234,
      "reward": 0.7626953125,
      "reward_std": 0.12216670252382755,
      "rewards/accuracy_reward": 0.05078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7119140625,
      "step": 169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 303.10546875,
      "epoch": 0.7249466950959488,
      "grad_norm": 0.5832945108413696,
      "kl": 0.66162109375,
      "learning_rate": 4.2438293431432665e-06,
      "loss": 0.0051,
      "reward": 0.806640625,
      "reward_std": 0.13442331552505493,
      "rewards/accuracy_reward": 0.0859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.720703125,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.23046875,
      "epoch": 0.7292110874200426,
      "grad_norm": 1.5207250118255615,
      "kl": 0.60546875,
      "learning_rate": 4.12214747707527e-06,
      "loss": 0.0104,
      "reward": 0.732421875,
      "reward_std": 0.09527772478759289,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.716796875,
      "step": 171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.65625,
      "epoch": 0.7334754797441365,
      "grad_norm": 2.143716335296631,
      "kl": 1.3779296875,
      "learning_rate": 4.001781053120863e-06,
      "loss": -0.0052,
      "reward": 0.7958984375,
      "reward_std": 0.13394116796553135,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7021484375,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 175.17578125,
      "epoch": 0.7377398720682303,
      "grad_norm": 5.434141635894775,
      "kl": 2.75,
      "learning_rate": 3.882757008849936e-06,
      "loss": 0.0388,
      "reward": 0.685546875,
      "reward_std": 0.16674507781863213,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.646484375,
      "step": 173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 162.55859375,
      "epoch": 0.7420042643923241,
      "grad_norm": 27.080265045166016,
      "kl": 3.57421875,
      "learning_rate": 3.7651019814126656e-06,
      "loss": 0.0552,
      "reward": 0.6416015625,
      "reward_std": 0.133183553814888,
      "rewards/accuracy_reward": 0.0078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6337890625,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.41796875,
      "epoch": 0.746268656716418,
      "grad_norm": 4.6160430908203125,
      "kl": 3.09375,
      "learning_rate": 3.6488423015782128e-06,
      "loss": 0.074,
      "reward": 0.6455078125,
      "reward_std": 0.15037459693849087,
      "rewards/accuracy_reward": 0.0234375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6220703125,
      "step": 175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.59375,
      "epoch": 0.7505330490405118,
      "grad_norm": 3.9284942150115967,
      "kl": 2.150390625,
      "learning_rate": 3.534003987842005e-06,
      "loss": 0.0613,
      "reward": 0.69921875,
      "reward_std": 0.16477027162909508,
      "rewards/accuracy_reward": 0.03515625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6640625,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 194.90625,
      "epoch": 0.7547974413646056,
      "grad_norm": 1.458369493484497,
      "kl": 0.7900390625,
      "learning_rate": 3.4206127406028744e-06,
      "loss": 0.0115,
      "reward": 0.78125,
      "reward_std": 0.16565649397671223,
      "rewards/accuracy_reward": 0.08203125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.69921875,
      "step": 177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 185.91796875,
      "epoch": 0.7590618336886994,
      "grad_norm": 0.9649374485015869,
      "kl": 0.466796875,
      "learning_rate": 3.308693936411421e-06,
      "loss": -0.0284,
      "reward": 0.75,
      "reward_std": 0.09331535268574953,
      "rewards/accuracy_reward": 0.01953125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.73046875,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 179.1171875,
      "epoch": 0.7633262260127932,
      "grad_norm": 1.3005759716033936,
      "kl": 0.43115234375,
      "learning_rate": 3.1982726222908046e-06,
      "loss": -0.0093,
      "reward": 0.87890625,
      "reward_std": 0.09297346090897918,
      "rewards/accuracy_reward": 0.1484375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.73046875,
      "step": 179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 198.36328125,
      "epoch": 0.767590618336887,
      "grad_norm": 0.8584280014038086,
      "kl": 0.2998046875,
      "learning_rate": 3.089373510131354e-06,
      "loss": -0.0111,
      "reward": 0.7822265625,
      "reward_std": 0.10853294795379043,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7353515625,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 187.99609375,
      "epoch": 0.7718550106609808,
      "grad_norm": 0.5993466377258301,
      "kl": 0.52099609375,
      "learning_rate": 2.9820209711600858e-06,
      "loss": -0.0401,
      "reward": 0.7890625,
      "reward_std": 0.1114540034905076,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.73046875,
      "step": 181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 219.74609375,
      "epoch": 0.7761194029850746,
      "grad_norm": 3.0398595333099365,
      "kl": 0.75439453125,
      "learning_rate": 2.876239030486554e-06,
      "loss": 0.0153,
      "reward": 0.7724609375,
      "reward_std": 0.1012349147349596,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7333984375,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 192.01171875,
      "epoch": 0.7803837953091685,
      "grad_norm": 2.972774028778076,
      "kl": 1.375,
      "learning_rate": 2.7720513617260857e-06,
      "loss": 0.0664,
      "reward": 0.814453125,
      "reward_std": 0.11987380962818861,
      "rewards/accuracy_reward": 0.0859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.728515625,
      "step": 183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 185.59765625,
      "epoch": 0.7846481876332623,
      "grad_norm": 6.028680801391602,
      "kl": 1.98046875,
      "learning_rate": 2.669481281701739e-06,
      "loss": 0.0526,
      "reward": 0.7646484375,
      "reward_std": 0.10079776309430599,
      "rewards/accuracy_reward": 0.03125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7333984375,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 206.2109375,
      "epoch": 0.7889125799573561,
      "grad_norm": 1.8360040187835693,
      "kl": 1.3046875,
      "learning_rate": 2.5685517452260566e-06,
      "loss": -0.0217,
      "reward": 0.7841796875,
      "reward_std": 0.08804275188595057,
      "rewards/accuracy_reward": 0.0546875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7294921875,
      "step": 185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 211.5234375,
      "epoch": 0.7931769722814499,
      "grad_norm": 1.8284348249435425,
      "kl": 1.18359375,
      "learning_rate": 2.469285339963892e-06,
      "loss": 0.0017,
      "reward": 0.7744140625,
      "reward_std": 0.09929579310119152,
      "rewards/accuracy_reward": 0.04296875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7314453125,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 206.52734375,
      "epoch": 0.7974413646055437,
      "grad_norm": 2.95171856880188,
      "kl": 1.2236328125,
      "learning_rate": 2.371704281377335e-06,
      "loss": 0.0348,
      "reward": 0.73828125,
      "reward_std": 0.09545402321964502,
      "rewards/accuracy_reward": 0.015625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.72265625,
      "step": 187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 202.625,
      "epoch": 0.8017057569296375,
      "grad_norm": 0.737244725227356,
      "kl": 0.52197265625,
      "learning_rate": 2.275830407754006e-06,
      "loss": 0.0328,
      "reward": 0.8466796875,
      "reward_std": 0.15702996030449867,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7333984375,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 214.828125,
      "epoch": 0.8059701492537313,
      "grad_norm": 0.781270444393158,
      "kl": 0.302734375,
      "learning_rate": 2.1816851753197023e-06,
      "loss": 0.0188,
      "reward": 0.80078125,
      "reward_std": 0.13719853153452277,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.73046875,
      "step": 189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 212.7890625,
      "epoch": 0.8102345415778252,
      "grad_norm": 1.513720989227295,
      "kl": 0.3876953125,
      "learning_rate": 2.08928965343659e-06,
      "loss": 0.0004,
      "reward": 0.861328125,
      "reward_std": 0.1351899290457368,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.736328125,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 220.57421875,
      "epoch": 0.814498933901919,
      "grad_norm": 4.133224964141846,
      "kl": 1.0576171875,
      "learning_rate": 1.9986645198879385e-06,
      "loss": -0.0196,
      "reward": 0.7626953125,
      "reward_std": 0.14676811546087265,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7236328125,
      "step": 191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.96875,
      "epoch": 0.8187633262260128,
      "grad_norm": 0.4540961682796478,
      "kl": 0.3203125,
      "learning_rate": 1.9098300562505266e-06,
      "loss": -0.0199,
      "reward": 0.8544921875,
      "reward_std": 0.1271651964634657,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7373046875,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 219.1171875,
      "epoch": 0.8230277185501066,
      "grad_norm": 0.32064002752304077,
      "kl": 0.45361328125,
      "learning_rate": 1.8228061433556866e-06,
      "loss": -0.0265,
      "reward": 0.779296875,
      "reward_std": 0.0899216216057539,
      "rewards/accuracy_reward": 0.04296875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.736328125,
      "step": 193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 214.43359375,
      "epoch": 0.8272921108742004,
      "grad_norm": 1.135198950767517,
      "kl": 0.42529296875,
      "learning_rate": 1.7376122568400533e-06,
      "loss": -0.0286,
      "reward": 0.8046875,
      "reward_std": 0.16580088809132576,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7265625,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 218.921875,
      "epoch": 0.8315565031982942,
      "grad_norm": 0.5622548460960388,
      "kl": 0.316650390625,
      "learning_rate": 1.6542674627869738e-06,
      "loss": 0.017,
      "reward": 0.80078125,
      "reward_std": 0.13944148644804955,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.73046875,
      "step": 195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.47265625,
      "epoch": 0.835820895522388,
      "grad_norm": 0.7856387495994568,
      "kl": 0.4052734375,
      "learning_rate": 1.5727904134596084e-06,
      "loss": 0.0162,
      "reward": 0.8193359375,
      "reward_std": 0.16033071093261242,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7060546875,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 243.625,
      "epoch": 0.8400852878464818,
      "grad_norm": 0.6806755065917969,
      "kl": 0.49072265625,
      "learning_rate": 1.4931993431266056e-06,
      "loss": 0.0095,
      "reward": 0.7890625,
      "reward_std": 0.25723421946167946,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.67578125,
      "step": 197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.87109375,
      "epoch": 0.8443496801705757,
      "grad_norm": 1.0873993635177612,
      "kl": 0.375,
      "learning_rate": 1.4155120639813392e-06,
      "loss": 0.1037,
      "reward": 0.7626953125,
      "reward_std": 0.21218526735901833,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6689453125,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 239.97265625,
      "epoch": 0.8486140724946695,
      "grad_norm": 1.0088647603988647,
      "kl": 0.37353515625,
      "learning_rate": 1.339745962155613e-06,
      "loss": 0.0416,
      "reward": 0.7822265625,
      "reward_std": 0.24759295210242271,
      "rewards/accuracy_reward": 0.1015625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6806640625,
      "step": 199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.73046875,
      "epoch": 0.8528784648187633,
      "grad_norm": 0.6826640367507935,
      "kl": 0.43017578125,
      "learning_rate": 1.2659179938287035e-06,
      "loss": 0.0312,
      "reward": 0.7685546875,
      "reward_std": 0.18006664514541626,
      "rewards/accuracy_reward": 0.0703125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6982421875,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.609375,
      "epoch": 0.8571428571428571,
      "grad_norm": 1.0566011667251587,
      "kl": 0.45751953125,
      "learning_rate": 1.19404468143262e-06,
      "loss": -0.0104,
      "reward": 0.796875,
      "reward_std": 0.15738755092024803,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.71875,
      "step": 201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.80859375,
      "epoch": 0.8614072494669509,
      "grad_norm": 0.7283450365066528,
      "kl": 0.5009765625,
      "learning_rate": 1.124142109954459e-06,
      "loss": -0.0242,
      "reward": 0.7705078125,
      "reward_std": 0.13039706647396088,
      "rewards/accuracy_reward": 0.0390625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7314453125,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 255.265625,
      "epoch": 0.8656716417910447,
      "grad_norm": 1.5315821170806885,
      "kl": 1.380859375,
      "learning_rate": 1.0562259233366334e-06,
      "loss": -0.0731,
      "reward": 0.78515625,
      "reward_std": 0.2296939566731453,
      "rewards/accuracy_reward": 0.08984375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6953125,
      "step": 203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 218.21875,
      "epoch": 0.8699360341151386,
      "grad_norm": 1.1094874143600464,
      "kl": 0.73046875,
      "learning_rate": 9.903113209758098e-07,
      "loss": 0.0012,
      "reward": 0.8720703125,
      "reward_std": 0.2057046014815569,
      "rewards/accuracy_reward": 0.1484375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7236328125,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 281.12109375,
      "epoch": 0.8742004264392325,
      "grad_norm": 1.407812237739563,
      "kl": 1.35546875,
      "learning_rate": 9.264130543213512e-07,
      "loss": -0.0625,
      "reward": 0.8251953125,
      "reward_std": 0.20766575261950493,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7080078125,
      "step": 205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.62109375,
      "epoch": 0.8784648187633263,
      "grad_norm": 3.055626153945923,
      "kl": 2.255859375,
      "learning_rate": 8.645454235739903e-07,
      "loss": -0.0862,
      "reward": 0.80859375,
      "reward_std": 0.2070464938879013,
      "rewards/accuracy_reward": 0.109375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.69921875,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 238.58203125,
      "epoch": 0.8827292110874201,
      "grad_norm": 1.8872811794281006,
      "kl": 1.49609375,
      "learning_rate": 8.047222744854943e-07,
      "loss": 0.0217,
      "reward": 0.8857421875,
      "reward_std": 0.24977924302220345,
      "rewards/accuracy_reward": 0.171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7138671875,
      "step": 207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 258.48046875,
      "epoch": 0.8869936034115139,
      "grad_norm": 4.186584949493408,
      "kl": 2.2333984375,
      "learning_rate": 7.46956995260033e-07,
      "loss": -0.0711,
      "reward": 0.8271484375,
      "reward_std": 0.18339894711971283,
      "rewards/accuracy_reward": 0.12890625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6982421875,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 236.16796875,
      "epoch": 0.8912579957356077,
      "grad_norm": 2.354311466217041,
      "kl": 1.609375,
      "learning_rate": 6.912625135579587e-07,
      "loss": -0.0062,
      "reward": 0.791015625,
      "reward_std": 0.17353365197777748,
      "rewards/accuracy_reward": 0.078125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.712890625,
      "step": 209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 227.03125,
      "epoch": 0.8955223880597015,
      "grad_norm": 2.211200714111328,
      "kl": 1.818359375,
      "learning_rate": 6.37651293602628e-07,
      "loss": -0.019,
      "reward": 0.7958984375,
      "reward_std": 0.19231459498405457,
      "rewards/accuracy_reward": 0.0859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7099609375,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.16015625,
      "epoch": 0.8997867803837953,
      "grad_norm": 3.354318141937256,
      "kl": 1.48828125,
      "learning_rate": 5.861353333909692e-07,
      "loss": -0.0305,
      "reward": 0.8115234375,
      "reward_std": 0.17966507747769356,
      "rewards/accuracy_reward": 0.09765625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7138671875,
      "step": 211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 262.46484375,
      "epoch": 0.9040511727078892,
      "grad_norm": 3.2571589946746826,
      "kl": 2.1796875,
      "learning_rate": 5.367261620083575e-07,
      "loss": -0.0519,
      "reward": 0.83984375,
      "reward_std": 0.2149498090147972,
      "rewards/accuracy_reward": 0.12109375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.71875,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.96875,
      "epoch": 0.908315565031983,
      "grad_norm": 1.6243290901184082,
      "kl": 1.0390625,
      "learning_rate": 4.894348370484648e-07,
      "loss": 0.0014,
      "reward": 0.7900390625,
      "reward_std": 0.14244702830910683,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7314453125,
      "step": 213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 238.0703125,
      "epoch": 0.9125799573560768,
      "grad_norm": 4.307506084442139,
      "kl": 1.15576171875,
      "learning_rate": 4.4427194213859216e-07,
      "loss": 0.0194,
      "reward": 0.833984375,
      "reward_std": 0.19881774485111237,
      "rewards/accuracy_reward": 0.109375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.724609375,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 240.42578125,
      "epoch": 0.9168443496801706,
      "grad_norm": 0.588789701461792,
      "kl": 0.70654296875,
      "learning_rate": 4.012475845711106e-07,
      "loss": -0.0109,
      "reward": 0.8740234375,
      "reward_std": 0.2335027940571308,
      "rewards/accuracy_reward": 0.1484375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7255859375,
      "step": 215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 245.46875,
      "epoch": 0.9211087420042644,
      "grad_norm": 2.772460460662842,
      "kl": 1.4560546875,
      "learning_rate": 3.603713930414676e-07,
      "loss": -0.0346,
      "reward": 0.7451171875,
      "reward_std": 0.1310195019468665,
      "rewards/accuracy_reward": 0.02734375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7177734375,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.265625,
      "epoch": 0.9253731343283582,
      "grad_norm": 2.068373918533325,
      "kl": 1.5322265625,
      "learning_rate": 3.2165251549333585e-07,
      "loss": -0.0333,
      "reward": 0.765625,
      "reward_std": 0.15018462389707565,
      "rewards/accuracy_reward": 0.046875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.71875,
      "step": 217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.9609375,
      "epoch": 0.929637526652452,
      "grad_norm": 1.8721359968185425,
      "kl": 0.88037109375,
      "learning_rate": 2.8509961707132496e-07,
      "loss": -0.0266,
      "reward": 0.8369140625,
      "reward_std": 0.20388219691812992,
      "rewards/accuracy_reward": 0.1171875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7197265625,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.0234375,
      "epoch": 0.9339019189765458,
      "grad_norm": 7.492040157318115,
      "kl": 1.865234375,
      "learning_rate": 2.507208781817638e-07,
      "loss": -0.0152,
      "reward": 0.859375,
      "reward_std": 0.2039647325873375,
      "rewards/accuracy_reward": 0.1328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7265625,
      "step": 219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.60546875,
      "epoch": 0.9381663113006397,
      "grad_norm": 1.1414939165115356,
      "kl": 0.890625,
      "learning_rate": 2.1852399266194312e-07,
      "loss": -0.0075,
      "reward": 0.8203125,
      "reward_std": 0.19437766447663307,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7265625,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.56640625,
      "epoch": 0.9424307036247335,
      "grad_norm": 1.324097990989685,
      "kl": 0.7802734375,
      "learning_rate": 1.885161660582746e-07,
      "loss": -0.0435,
      "reward": 0.7861328125,
      "reward_std": 0.1638173609972,
      "rewards/accuracy_reward": 0.05859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7275390625,
      "step": 221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 234.42578125,
      "epoch": 0.9466950959488273,
      "grad_norm": 1.6171019077301025,
      "kl": 1.47265625,
      "learning_rate": 1.6070411401370335e-07,
      "loss": -0.0326,
      "reward": 0.771484375,
      "reward_std": 0.17419602535665035,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.708984375,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 260.5859375,
      "epoch": 0.9509594882729211,
      "grad_norm": 4.242193698883057,
      "kl": 0.716552734375,
      "learning_rate": 1.350940607647866e-07,
      "loss": 0.0139,
      "reward": 0.822265625,
      "reward_std": 0.16951362788677216,
      "rewards/accuracy_reward": 0.08984375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.732421875,
      "step": 223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.80078125,
      "epoch": 0.9552238805970149,
      "grad_norm": 5.544849395751953,
      "kl": 1.04345703125,
      "learning_rate": 1.1169173774871478e-07,
      "loss": 0.0055,
      "reward": 0.8037109375,
      "reward_std": 0.17775351367890835,
      "rewards/accuracy_reward": 0.08203125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7216796875,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 272.6328125,
      "epoch": 0.9594882729211087,
      "grad_norm": 0.6265246868133545,
      "kl": 0.630859375,
      "learning_rate": 9.0502382320653e-08,
      "loss": -0.0349,
      "reward": 0.9287109375,
      "reward_std": 0.25279103592038155,
      "rewards/accuracy_reward": 0.19921875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7294921875,
      "step": 225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 240.05078125,
      "epoch": 0.9637526652452025,
      "grad_norm": 1.7309554815292358,
      "kl": 1.01171875,
      "learning_rate": 7.153073658162646e-08,
      "loss": -0.0208,
      "reward": 0.7783203125,
      "reward_std": 0.1793037187308073,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7158203125,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 239.66796875,
      "epoch": 0.9680170575692963,
      "grad_norm": 1.2242202758789062,
      "kl": 0.91845703125,
      "learning_rate": 5.4781046317267103e-08,
      "loss": -0.0061,
      "reward": 0.8173828125,
      "reward_std": 0.20180584490299225,
      "rewards/accuracy_reward": 0.09375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7236328125,
      "step": 227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 275.390625,
      "epoch": 0.9722814498933902,
      "grad_norm": 0.6100110411643982,
      "kl": 0.55224609375,
      "learning_rate": 4.025706004760932e-08,
      "loss": -0.0347,
      "reward": 0.8251953125,
      "reward_std": 0.15769800543785095,
      "rewards/accuracy_reward": 0.08984375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7353515625,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.50390625,
      "epoch": 0.976545842217484,
      "grad_norm": 1.7776597738265991,
      "kl": 0.861328125,
      "learning_rate": 2.796202818819871e-08,
      "loss": -0.0023,
      "reward": 0.85546875,
      "reward_std": 0.22671574354171753,
      "rewards/accuracy_reward": 0.12890625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7265625,
      "step": 229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 242.7734375,
      "epoch": 0.9808102345415778,
      "grad_norm": 1.0293753147125244,
      "kl": 0.8193359375,
      "learning_rate": 1.7898702322648453e-08,
      "loss": -0.0337,
      "reward": 0.828125,
      "reward_std": 0.16718050092458725,
      "rewards/accuracy_reward": 0.10546875,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.72265625,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.5546875,
      "epoch": 0.9850746268656716,
      "grad_norm": 1.5529704093933105,
      "kl": 1.0205078125,
      "learning_rate": 1.0069334586854106e-08,
      "loss": -0.0289,
      "reward": 0.83203125,
      "reward_std": 0.16101082926616073,
      "rewards/accuracy_reward": 0.11328125,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.71875,
      "step": 231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 254.5,
      "epoch": 0.9893390191897654,
      "grad_norm": 2.5354487895965576,
      "kl": 1.244140625,
      "learning_rate": 4.475677164966774e-09,
      "loss": -0.0043,
      "reward": 0.810546875,
      "reward_std": 0.18945523723959923,
      "rewards/accuracy_reward": 0.0859375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.724609375,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.34765625,
      "epoch": 0.9936034115138592,
      "grad_norm": 1.5713036060333252,
      "kl": 1.1103515625,
      "learning_rate": 1.1189818972656697e-09,
      "loss": -0.0032,
      "reward": 0.8720703125,
      "reward_std": 0.26588882878422737,
      "rewards/accuracy_reward": 0.15625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7158203125,
      "step": 233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.0000114440918,
      "epoch": 0.997867803837953,
      "grad_norm": 1.1278139352798462,
      "kl": 1.296875,
      "learning_rate": 0.0,
      "loss": -0.0335,
      "reward": 0.8466796875,
      "reward_std": 0.23463162407279015,
      "rewards/accuracy_reward": 0.12890625,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.7177734375,
      "step": 234
    },
    {
      "epoch": 0.997867803837953,
      "step": 234,
      "total_flos": 0.0,
      "train_loss": 0.3048181866761297,
      "train_runtime": 9320.4205,
      "train_samples_per_second": 0.805,
      "train_steps_per_second": 0.025
    }
  ],
  "logging_steps": 1,
  "max_steps": 234,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}