{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 50,
  "global_step": 436,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.022935779816513763,
      "grad_norm": 5.356178331285126,
      "learning_rate": 1.1363636363636363e-07,
      "logits/chosen": -2.6583542823791504,
      "logits/rejected": -2.612396240234375,
      "logps/chosen": -310.2690124511719,
      "logps/rejected": -241.6248321533203,
      "loss": 0.6932,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -4.61353047285229e-05,
      "rewards/margins": -0.00015705036639701575,
      "rewards/rejected": 0.00011091506894445047,
      "step": 10
    },
    {
      "epoch": 0.045871559633027525,
      "grad_norm": 6.4233925318831595,
      "learning_rate": 2.2727272727272726e-07,
      "logits/chosen": -2.691195011138916,
      "logits/rejected": -2.6153342723846436,
      "logps/chosen": -293.5455627441406,
      "logps/rejected": -265.6838684082031,
      "loss": 0.6924,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": 0.001484546228311956,
      "rewards/margins": 0.002768759150058031,
      "rewards/rejected": -0.0012842128053307533,
      "step": 20
    },
    {
      "epoch": 0.06880733944954129,
      "grad_norm": 5.149124678509347,
      "learning_rate": 3.4090909090909085e-07,
      "logits/chosen": -2.6977083683013916,
      "logits/rejected": -2.63045072555542,
      "logps/chosen": -277.82159423828125,
      "logps/rejected": -297.18646240234375,
      "loss": 0.6892,
      "rewards/accuracies": 0.643750011920929,
      "rewards/chosen": 0.004203228745609522,
      "rewards/margins": 0.009881972335278988,
      "rewards/rejected": -0.005678744055330753,
      "step": 30
    },
    {
      "epoch": 0.09174311926605505,
      "grad_norm": 6.002207032235101,
      "learning_rate": 4.545454545454545e-07,
      "logits/chosen": -2.616579294204712,
      "logits/rejected": -2.5455870628356934,
      "logps/chosen": -283.92156982421875,
      "logps/rejected": -259.82562255859375,
      "loss": 0.6798,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.036965593695640564,
      "rewards/margins": 0.04610789567232132,
      "rewards/rejected": -0.009142300114035606,
      "step": 40
    },
    {
      "epoch": 0.11467889908256881,
      "grad_norm": 5.926817590245787,
      "learning_rate": 4.997110275491701e-07,
      "logits/chosen": -2.596590518951416,
      "logits/rejected": -2.512640953063965,
      "logps/chosen": -285.3323669433594,
      "logps/rejected": -247.4479522705078,
      "loss": 0.6687,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.006985962390899658,
      "rewards/margins": 0.058415599167346954,
      "rewards/rejected": -0.06540156155824661,
      "step": 50
    },
    {
      "epoch": 0.11467889908256881,
      "eval_logits/chosen": -2.607215166091919,
      "eval_logits/rejected": -2.5074896812438965,
      "eval_logps/chosen": -286.6437683105469,
      "eval_logps/rejected": -258.6246032714844,
      "eval_loss": 0.6559526920318604,
      "eval_rewards/accuracies": 0.6724137663841248,
      "eval_rewards/chosen": -0.026378028094768524,
      "eval_rewards/margins": 0.10339301824569702,
      "eval_rewards/rejected": -0.12977103888988495,
      "eval_runtime": 92.1507,
      "eval_samples_per_second": 19.729,
      "eval_steps_per_second": 0.315,
      "step": 50
    },
    {
      "epoch": 0.13761467889908258,
      "grad_norm": 7.494952728753531,
      "learning_rate": 4.979475034558115e-07,
      "logits/chosen": -2.582334518432617,
      "logits/rejected": -2.508467197418213,
      "logps/chosen": -292.1842346191406,
      "logps/rejected": -282.423583984375,
      "loss": 0.6423,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.11595962941646576,
      "rewards/margins": 0.1907343566417694,
      "rewards/rejected": -0.306693971157074,
      "step": 60
    },
    {
      "epoch": 0.16055045871559634,
      "grad_norm": 18.148816686471342,
      "learning_rate": 4.945923025551788e-07,
      "logits/chosen": -2.459238052368164,
      "logits/rejected": -2.3897058963775635,
      "logps/chosen": -298.2831115722656,
      "logps/rejected": -273.2386474609375,
      "loss": 0.6393,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.29933103919029236,
      "rewards/margins": 0.23945657908916473,
      "rewards/rejected": -0.5387876629829407,
      "step": 70
    },
    {
      "epoch": 0.1834862385321101,
      "grad_norm": 12.734144337443169,
      "learning_rate": 4.896669632591651e-07,
      "logits/chosen": -2.5085086822509766,
      "logits/rejected": -2.3976407051086426,
      "logps/chosen": -305.76031494140625,
      "logps/rejected": -321.8554992675781,
      "loss": 0.6235,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.3573322296142578,
      "rewards/margins": 0.28428393602371216,
      "rewards/rejected": -0.6416162252426147,
      "step": 80
    },
    {
      "epoch": 0.20642201834862386,
      "grad_norm": 14.039079346644037,
      "learning_rate": 4.832031033425662e-07,
      "logits/chosen": -1.4997788667678833,
      "logits/rejected": -1.313194990158081,
      "logps/chosen": -348.44805908203125,
      "logps/rejected": -361.76226806640625,
      "loss": 0.5956,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.44265589118003845,
      "rewards/margins": 0.4234777092933655,
      "rewards/rejected": -0.8661335706710815,
      "step": 90
    },
    {
      "epoch": 0.22935779816513763,
      "grad_norm": 13.29279140070498,
      "learning_rate": 4.752422169756047e-07,
      "logits/chosen": -0.19194559752941132,
      "logits/rejected": 0.2622618079185486,
      "logps/chosen": -339.16339111328125,
      "logps/rejected": -359.37176513671875,
      "loss": 0.581,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.598974347114563,
      "rewards/margins": 0.4787676930427551,
      "rewards/rejected": -1.0777419805526733,
      "step": 100
    },
    {
      "epoch": 0.22935779816513763,
      "eval_logits/chosen": 0.026995467022061348,
      "eval_logits/rejected": 0.6340460777282715,
      "eval_logps/chosen": -357.115966796875,
      "eval_logps/rejected": -377.3665771484375,
      "eval_loss": 0.5763944387435913,
      "eval_rewards/accuracies": 0.7155172228813171,
      "eval_rewards/chosen": -0.7311002016067505,
      "eval_rewards/margins": 0.5860908627510071,
      "eval_rewards/rejected": -1.3171910047531128,
      "eval_runtime": 91.0093,
      "eval_samples_per_second": 19.976,
      "eval_steps_per_second": 0.319,
      "step": 100
    },
    {
      "epoch": 0.25229357798165136,
      "grad_norm": 27.36521925016087,
      "learning_rate": 4.658354083558188e-07,
      "logits/chosen": -0.14074298739433289,
      "logits/rejected": 0.41164666414260864,
      "logps/chosen": -359.0007019042969,
      "logps/rejected": -422.62353515625,
      "loss": 0.5561,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.6176259517669678,
      "rewards/margins": 0.7909212708473206,
      "rewards/rejected": -1.4085471630096436,
      "step": 110
    },
    {
      "epoch": 0.27522935779816515,
      "grad_norm": 18.22825267425928,
      "learning_rate": 4.550430636492389e-07,
      "logits/chosen": 0.28136759996414185,
      "logits/rejected": 1.2520945072174072,
      "logps/chosen": -414.25665283203125,
      "logps/rejected": -428.6090393066406,
      "loss": 0.5788,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.0384491682052612,
      "rewards/margins": 0.647238552570343,
      "rewards/rejected": -1.6856876611709595,
      "step": 120
    },
    {
      "epoch": 0.2981651376146789,
      "grad_norm": 18.72996488177851,
      "learning_rate": 4.429344633468004e-07,
      "logits/chosen": 1.1580041646957397,
      "logits/rejected": 1.9673328399658203,
      "logps/chosen": -384.8316650390625,
      "logps/rejected": -440.20672607421875,
      "loss": 0.5744,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -0.9717643857002258,
      "rewards/margins": 0.8623247146606445,
      "rewards/rejected": -1.8340890407562256,
      "step": 130
    },
    {
      "epoch": 0.3211009174311927,
      "grad_norm": 18.77533851044078,
      "learning_rate": 4.2958733752443187e-07,
      "logits/chosen": 0.9655276536941528,
      "logits/rejected": 1.986130952835083,
      "logps/chosen": -377.4757995605469,
      "logps/rejected": -408.6956481933594,
      "loss": 0.553,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.9340255856513977,
      "rewards/margins": 0.7136737704277039,
      "rewards/rejected": -1.6476993560791016,
      "step": 140
    },
    {
      "epoch": 0.3440366972477064,
      "grad_norm": 22.441752676286086,
      "learning_rate": 4.150873668617898e-07,
      "logits/chosen": 1.651755928993225,
      "logits/rejected": 2.6961984634399414,
      "logps/chosen": -394.5315856933594,
      "logps/rejected": -437.6512756347656,
      "loss": 0.558,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.0381582975387573,
      "rewards/margins": 0.7305435538291931,
      "rewards/rejected": -1.7687019109725952,
      "step": 150
    },
    {
      "epoch": 0.3440366972477064,
      "eval_logits/chosen": 2.0827815532684326,
      "eval_logits/rejected": 3.0035645961761475,
      "eval_logps/chosen": -404.3199157714844,
      "eval_logps/rejected": -442.60711669921875,
      "eval_loss": 0.5509841442108154,
      "eval_rewards/accuracies": 0.7241379022598267,
      "eval_rewards/chosen": -1.203139305114746,
      "eval_rewards/margins": 0.7664569616317749,
      "eval_rewards/rejected": -1.9695963859558105,
      "eval_runtime": 90.3932,
      "eval_samples_per_second": 20.112,
      "eval_steps_per_second": 0.321,
      "step": 150
    },
    {
      "epoch": 0.3669724770642202,
      "grad_norm": 24.238500011603442,
      "learning_rate": 3.9952763262280397e-07,
      "logits/chosen": 1.6490274667739868,
      "logits/rejected": 2.5100581645965576,
      "logps/chosen": -409.46240234375,
      "logps/rejected": -448.33001708984375,
      "loss": 0.557,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1305733919143677,
      "rewards/margins": 0.8016298413276672,
      "rewards/rejected": -1.9322032928466797,
      "step": 160
    },
    {
      "epoch": 0.38990825688073394,
      "grad_norm": 29.076032215796957,
      "learning_rate": 3.8300801912883414e-07,
      "logits/chosen": 1.5585577487945557,
      "logits/rejected": 2.380032777786255,
      "logps/chosen": -372.0144958496094,
      "logps/rejected": -400.96905517578125,
      "loss": 0.5388,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.0608928203582764,
      "rewards/margins": 0.7344645261764526,
      "rewards/rejected": -1.795357346534729,
      "step": 170
    },
    {
      "epoch": 0.41284403669724773,
      "grad_norm": 23.777603972721764,
      "learning_rate": 3.6563457256020884e-07,
      "logits/chosen": 1.052141785621643,
      "logits/rejected": 1.8935604095458984,
      "logps/chosen": -356.8204650878906,
      "logps/rejected": -432.20001220703125,
      "loss": 0.5439,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.9667918086051941,
      "rewards/margins": 0.9197394251823425,
      "rewards/rejected": -1.886531114578247,
      "step": 180
    },
    {
      "epoch": 0.43577981651376146,
      "grad_norm": 20.231853124698564,
      "learning_rate": 3.475188202022617e-07,
      "logits/chosen": 1.569053292274475,
      "logits/rejected": 2.5012192726135254,
      "logps/chosen": -349.7216491699219,
      "logps/rejected": -458.28955078125,
      "loss": 0.5442,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -0.9105401039123535,
      "rewards/margins": 1.0454990863800049,
      "rewards/rejected": -1.9560391902923584,
      "step": 190
    },
    {
      "epoch": 0.45871559633027525,
      "grad_norm": 20.18742592623794,
      "learning_rate": 3.287770545059052e-07,
      "logits/chosen": 2.6468214988708496,
      "logits/rejected": 3.313246965408325,
      "logps/chosen": -413.1968688964844,
      "logps/rejected": -454.881591796875,
      "loss": 0.5346,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.473356008529663,
      "rewards/margins": 0.712754487991333,
      "rewards/rejected": -2.186110258102417,
      "step": 200
    },
    {
      "epoch": 0.45871559633027525,
      "eval_logits/chosen": 1.7577229738235474,
      "eval_logits/rejected": 2.7758734226226807,
      "eval_logps/chosen": -400.7710876464844,
      "eval_logps/rejected": -449.201904296875,
      "eval_loss": 0.5381261706352234,
      "eval_rewards/accuracies": 0.7112069129943848,
      "eval_rewards/chosen": -1.1676514148712158,
      "eval_rewards/margins": 0.8678924441337585,
      "eval_rewards/rejected": -2.03554368019104,
      "eval_runtime": 90.283,
      "eval_samples_per_second": 20.137,
      "eval_steps_per_second": 0.321,
      "step": 200
    },
    {
      "epoch": 0.481651376146789,
      "grad_norm": 21.096800994630236,
      "learning_rate": 3.0952958655864954e-07,
      "logits/chosen": 2.1683189868927,
      "logits/rejected": 2.6720829010009766,
      "logps/chosen": -401.7050476074219,
      "logps/rejected": -487.34161376953125,
      "loss": 0.5345,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.2490909099578857,
      "rewards/margins": 0.7777953743934631,
      "rewards/rejected": -2.026886463165283,
      "step": 210
    },
    {
      "epoch": 0.5045871559633027,
      "grad_norm": 35.955511790614246,
      "learning_rate": 2.898999737583448e-07,
      "logits/chosen": 1.9502754211425781,
      "logits/rejected": 2.887373447418213,
      "logps/chosen": -407.0714111328125,
      "logps/rejected": -475.75860595703125,
      "loss": 0.5405,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.3871901035308838,
      "rewards/margins": 0.8300696611404419,
      "rewards/rejected": -2.2172598838806152,
      "step": 220
    },
    {
      "epoch": 0.5275229357798165,
      "grad_norm": 21.81682834473053,
      "learning_rate": 2.7001422664752333e-07,
      "logits/chosen": 2.0954604148864746,
      "logits/rejected": 3.134028673171997,
      "logps/chosen": -393.80865478515625,
      "logps/rejected": -481.6973571777344,
      "loss": 0.535,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -1.1964021921157837,
      "rewards/margins": 1.084702968597412,
      "rewards/rejected": -2.281104803085327,
      "step": 230
    },
    {
      "epoch": 0.5504587155963303,
      "grad_norm": 20.331534801215742,
      "learning_rate": 2.5e-07,
      "logits/chosen": 2.4693617820739746,
      "logits/rejected": 2.7029402256011963,
      "logps/chosen": -397.209716796875,
      "logps/rejected": -480.30621337890625,
      "loss": 0.5634,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.274371862411499,
      "rewards/margins": 0.8711179494857788,
      "rewards/rejected": -2.1454896926879883,
      "step": 240
    },
    {
      "epoch": 0.573394495412844,
      "grad_norm": 21.16814139127329,
      "learning_rate": 2.2998577335247667e-07,
      "logits/chosen": 2.334216356277466,
      "logits/rejected": 3.1122984886169434,
      "logps/chosen": -399.35968017578125,
      "logps/rejected": -462.42877197265625,
      "loss": 0.5391,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.344590425491333,
      "rewards/margins": 0.8345645070075989,
      "rewards/rejected": -2.179154872894287,
      "step": 250
    },
    {
      "epoch": 0.573394495412844,
      "eval_logits/chosen": 1.8166545629501343,
      "eval_logits/rejected": 2.9561386108398438,
      "eval_logps/chosen": -392.5903015136719,
      "eval_logps/rejected": -442.3040771484375,
      "eval_loss": 0.5333030819892883,
      "eval_rewards/accuracies": 0.7198275923728943,
      "eval_rewards/chosen": -1.0858436822891235,
      "eval_rewards/margins": 0.8807222843170166,
      "eval_rewards/rejected": -1.9665659666061401,
      "eval_runtime": 91.6089,
      "eval_samples_per_second": 19.845,
      "eval_steps_per_second": 0.317,
      "step": 250
    },
    {
      "epoch": 0.5963302752293578,
      "grad_norm": 24.05630881187602,
      "learning_rate": 2.1010002624165524e-07,
      "logits/chosen": 2.180393934249878,
      "logits/rejected": 3.2447829246520996,
      "logps/chosen": -416.7367248535156,
      "logps/rejected": -477.38671875,
      "loss": 0.5431,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": -1.1423505544662476,
      "rewards/margins": 1.0397279262542725,
      "rewards/rejected": -2.1820783615112305,
      "step": 260
    },
    {
      "epoch": 0.6192660550458715,
      "grad_norm": 16.426211814362816,
      "learning_rate": 1.9047041344135043e-07,
      "logits/chosen": 2.4754998683929443,
      "logits/rejected": 3.3202342987060547,
      "logps/chosen": -418.9905700683594,
      "logps/rejected": -466.9713439941406,
      "loss": 0.5554,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.4273664951324463,
      "rewards/margins": 0.7679312229156494,
      "rewards/rejected": -2.1952977180480957,
      "step": 270
    },
    {
      "epoch": 0.6422018348623854,
      "grad_norm": 25.36799111369545,
      "learning_rate": 1.7122294549409482e-07,
      "logits/chosen": 2.9461216926574707,
      "logits/rejected": 3.8612606525421143,
      "logps/chosen": -443.60198974609375,
      "logps/rejected": -535.1948852539062,
      "loss": 0.5313,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.662767767906189,
      "rewards/margins": 0.998543918132782,
      "rewards/rejected": -2.6613118648529053,
      "step": 280
    },
    {
      "epoch": 0.6651376146788991,
      "grad_norm": 15.931208067906516,
      "learning_rate": 1.524811797977383e-07,
      "logits/chosen": 2.2281603813171387,
      "logits/rejected": 3.0743608474731445,
      "logps/chosen": -415.99908447265625,
      "logps/rejected": -480.72003173828125,
      "loss": 0.5279,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.2590678930282593,
      "rewards/margins": 0.8066269159317017,
      "rewards/rejected": -2.065694808959961,
      "step": 290
    },
    {
      "epoch": 0.6880733944954128,
      "grad_norm": 18.614598999130695,
      "learning_rate": 1.3436542743979125e-07,
      "logits/chosen": 2.0644378662109375,
      "logits/rejected": 3.2977874279022217,
      "logps/chosen": -393.56756591796875,
      "logps/rejected": -459.68646240234375,
      "loss": 0.5479,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.0834629535675049,
      "rewards/margins": 1.0138219594955444,
      "rewards/rejected": -2.097285032272339,
      "step": 300
    },
    {
      "epoch": 0.6880733944954128,
      "eval_logits/chosen": 2.0026185512542725,
      "eval_logits/rejected": 3.223935604095459,
      "eval_logps/chosen": -388.63787841796875,
      "eval_logps/rejected": -442.7093200683594,
      "eval_loss": 0.5265418291091919,
      "eval_rewards/accuracies": 0.7068965435028076,
      "eval_rewards/chosen": -1.0463188886642456,
      "eval_rewards/margins": 0.9242996573448181,
      "eval_rewards/rejected": -1.970618486404419,
      "eval_runtime": 90.447,
      "eval_samples_per_second": 20.1,
      "eval_steps_per_second": 0.321,
      "step": 300
    },
    {
      "epoch": 0.7110091743119266,
      "grad_norm": 25.782071483124422,
      "learning_rate": 1.1699198087116588e-07,
      "logits/chosen": 2.8770992755889893,
      "logits/rejected": 3.6848435401916504,
      "logps/chosen": -387.76580810546875,
      "logps/rejected": -468.38275146484375,
      "loss": 0.5499,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -1.336073875427246,
      "rewards/margins": 0.9252589344978333,
      "rewards/rejected": -2.2613327503204346,
      "step": 310
    },
    {
      "epoch": 0.7339449541284404,
      "grad_norm": 23.531042495765035,
      "learning_rate": 1.00472367377196e-07,
      "logits/chosen": 2.587601900100708,
      "logits/rejected": 3.9543087482452393,
      "logps/chosen": -440.2958984375,
      "logps/rejected": -498.0613708496094,
      "loss": 0.5302,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -1.3440136909484863,
      "rewards/margins": 1.1366775035858154,
      "rewards/rejected": -2.4806911945343018,
      "step": 320
    },
    {
      "epoch": 0.7568807339449541,
      "grad_norm": 22.178841978203927,
      "learning_rate": 8.49126331382102e-08,
      "logits/chosen": 2.5279412269592285,
      "logits/rejected": 3.4965198040008545,
      "logps/chosen": -422.66168212890625,
      "logps/rejected": -501.438720703125,
      "loss": 0.5342,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4393374919891357,
      "rewards/margins": 0.8559640645980835,
      "rewards/rejected": -2.295301914215088,
      "step": 330
    },
    {
      "epoch": 0.7798165137614679,
      "grad_norm": 19.61314237963683,
      "learning_rate": 7.041266247556812e-08,
      "logits/chosen": 2.785928726196289,
      "logits/rejected": 3.915510892868042,
      "logps/chosen": -388.799072265625,
      "logps/rejected": -494.65606689453125,
      "loss": 0.5294,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.265873670578003,
      "rewards/margins": 1.0917268991470337,
      "rewards/rejected": -2.357600450515747,
      "step": 340
    },
    {
      "epoch": 0.8027522935779816,
      "grad_norm": 22.588827480706584,
      "learning_rate": 5.706553665319955e-08,
      "logits/chosen": 2.3770060539245605,
      "logits/rejected": 4.068874835968018,
      "logps/chosen": -419.5255432128906,
      "logps/rejected": -510.02911376953125,
      "loss": 0.5232,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.2834579944610596,
      "rewards/margins": 1.3700745105743408,
      "rewards/rejected": -2.6535322666168213,
      "step": 350
    },
    {
      "epoch": 0.8027522935779816,
      "eval_logits/chosen": 2.348414182662964,
      "eval_logits/rejected": 3.6065878868103027,
      "eval_logps/chosen": -417.5965881347656,
      "eval_logps/rejected": -477.5577392578125,
      "eval_loss": 0.5262271761894226,
      "eval_rewards/accuracies": 0.7241379022598267,
      "eval_rewards/chosen": -1.3359062671661377,
      "eval_rewards/margins": 0.9831959009170532,
      "eval_rewards/rejected": -2.3191022872924805,
      "eval_runtime": 91.8801,
      "eval_samples_per_second": 19.787,
      "eval_steps_per_second": 0.316,
      "step": 350
    },
    {
      "epoch": 0.8256880733944955,
      "grad_norm": 22.898724036504742,
      "learning_rate": 4.4956936350761005e-08,
      "logits/chosen": 2.4756264686584473,
      "logits/rejected": 3.231902599334717,
      "logps/chosen": -419.9034118652344,
      "logps/rejected": -510.82781982421875,
      "loss": 0.5254,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -1.401601791381836,
      "rewards/margins": 1.0482218265533447,
      "rewards/rejected": -2.4498236179351807,
      "step": 360
    },
    {
      "epoch": 0.8486238532110092,
      "grad_norm": 21.290872916140614,
      "learning_rate": 3.416459164418123e-08,
      "logits/chosen": 1.8261902332305908,
      "logits/rejected": 3.2766151428222656,
      "logps/chosen": -459.34906005859375,
      "logps/rejected": -512.47314453125,
      "loss": 0.5204,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": -1.2751537561416626,
      "rewards/margins": 1.1164480447769165,
      "rewards/rejected": -2.391602039337158,
      "step": 370
    },
    {
      "epoch": 0.8715596330275229,
      "grad_norm": 20.41896976274452,
      "learning_rate": 2.475778302439524e-08,
      "logits/chosen": 2.1876559257507324,
      "logits/rejected": 3.5514347553253174,
      "logps/chosen": -429.52801513671875,
      "logps/rejected": -452.6607360839844,
      "loss": 0.5244,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.362518548965454,
      "rewards/margins": 0.9127564430236816,
      "rewards/rejected": -2.2752749919891357,
      "step": 380
    },
    {
      "epoch": 0.8944954128440367,
      "grad_norm": 20.106111939027084,
      "learning_rate": 1.6796896657433805e-08,
      "logits/chosen": 1.5682854652404785,
      "logits/rejected": 3.198239803314209,
      "logps/chosen": -423.41143798828125,
      "logps/rejected": -513.44140625,
      "loss": 0.5138,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1543933153152466,
      "rewards/margins": 1.4496588706970215,
      "rewards/rejected": -2.6040520668029785,
      "step": 390
    },
    {
      "epoch": 0.9174311926605505,
      "grad_norm": 22.36268387575501,
      "learning_rate": 1.0333036740834855e-08,
      "logits/chosen": 2.2944397926330566,
      "logits/rejected": 3.2362308502197266,
      "logps/chosen": -427.0224609375,
      "logps/rejected": -509.18438720703125,
      "loss": 0.5267,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.3516565561294556,
      "rewards/margins": 0.9079391360282898,
      "rewards/rejected": -2.2595956325531006,
      "step": 400
    },
    {
      "epoch": 0.9174311926605505,
      "eval_logits/chosen": 1.9855237007141113,
      "eval_logits/rejected": 3.3069264888763428,
      "eval_logps/chosen": -402.9078674316406,
      "eval_logps/rejected": -463.85418701171875,
      "eval_loss": 0.5237594246864319,
      "eval_rewards/accuracies": 0.7241379022598267,
      "eval_rewards/chosen": -1.189018964767456,
      "eval_rewards/margins": 0.9930478930473328,
      "eval_rewards/rejected": -2.1820664405822754,
      "eval_runtime": 90.561,
      "eval_samples_per_second": 20.075,
      "eval_steps_per_second": 0.32,
      "step": 400
    },
    {
      "epoch": 0.9403669724770642,
      "grad_norm": 20.20141424383877,
      "learning_rate": 5.4076974448211685e-09,
      "logits/chosen": 2.3932690620422363,
      "logits/rejected": 3.2205722332000732,
      "logps/chosen": -426.5123596191406,
      "logps/rejected": -476.37139892578125,
      "loss": 0.5452,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.391105055809021,
      "rewards/margins": 0.8132905960083008,
      "rewards/rejected": -2.2043957710266113,
      "step": 410
    },
    {
      "epoch": 0.963302752293578,
      "grad_norm": 20.629666257184397,
      "learning_rate": 2.052496544188487e-09,
      "logits/chosen": 2.141890048980713,
      "logits/rejected": 3.76823091506958,
      "logps/chosen": -436.96722412109375,
      "logps/rejected": -471.711181640625,
      "loss": 0.5323,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": -1.3215954303741455,
      "rewards/margins": 1.0597209930419922,
      "rewards/rejected": -2.381316661834717,
      "step": 420
    },
    {
      "epoch": 0.9862385321100917,
      "grad_norm": 17.42236283649955,
      "learning_rate": 2.889724508297886e-10,
      "logits/chosen": 2.458095073699951,
      "logits/rejected": 3.361394166946411,
      "logps/chosen": -389.62994384765625,
      "logps/rejected": -474.5247497558594,
      "loss": 0.5251,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": -1.2771459817886353,
      "rewards/margins": 0.9393760561943054,
      "rewards/rejected": -2.216521739959717,
      "step": 430
    },
    {
      "epoch": 1.0,
      "step": 436,
      "total_flos": 0.0,
      "train_loss": 0.5659637576943144,
      "train_runtime": 11398.0027,
      "train_samples_per_second": 4.892,
      "train_steps_per_second": 0.038
    }
  ],
  "logging_steps": 10,
  "max_steps": 436,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}