{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 392,
  "global_step": 15669,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.015125406854298296,
      "grad_norm": 199.77919006347656,
      "learning_rate": 5.589586523736601e-07,
      "loss": 12.973,
      "step": 79
    },
    {
      "epoch": 0.030250813708596593,
      "grad_norm": 70.86483764648438,
      "learning_rate": 1.1638591117917304e-06,
      "loss": 8.4661,
      "step": 158
    },
    {
      "epoch": 0.045376220562894885,
      "grad_norm": 17.361167907714844,
      "learning_rate": 1.768759571209801e-06,
      "loss": 6.136,
      "step": 237
    },
    {
      "epoch": 0.060501627417193185,
      "grad_norm": 13.593123435974121,
      "learning_rate": 2.3736600306278715e-06,
      "loss": 6.2319,
      "step": 316
    },
    {
      "epoch": 0.07505265173272066,
      "eval_nli-pairs_loss": 5.313699245452881,
      "eval_nli-pairs_runtime": 12.1282,
      "eval_nli-pairs_samples_per_second": 123.679,
      "eval_nli-pairs_steps_per_second": 5.195,
      "step": 392
    },
    {
      "epoch": 0.07505265173272066,
      "eval_scitail-pairs-pos_loss": 3.977630615234375,
      "eval_scitail-pairs-pos_runtime": 15.2195,
      "eval_scitail-pairs-pos_samples_per_second": 85.68,
      "eval_scitail-pairs-pos_steps_per_second": 3.614,
      "step": 392
    },
    {
      "epoch": 0.07505265173272066,
      "eval_qnli-contrastive_loss": 5.520341396331787,
      "eval_qnli-contrastive_runtime": 4.7394,
      "eval_qnli-contrastive_samples_per_second": 316.494,
      "eval_qnli-contrastive_steps_per_second": 13.293,
      "step": 392
    },
    {
      "epoch": 0.07562703427149148,
      "grad_norm": 15.363186836242676,
      "learning_rate": 2.978560490045942e-06,
      "loss": 5.6068,
      "step": 395
    },
    {
      "epoch": 0.09075244112578977,
      "grad_norm": 18.922758102416992,
      "learning_rate": 3.5834609494640125e-06,
      "loss": 5.2502,
      "step": 474
    },
    {
      "epoch": 0.10587784798008808,
      "grad_norm": 20.363380432128906,
      "learning_rate": 4.188361408882083e-06,
      "loss": 4.8699,
      "step": 553
    },
    {
      "epoch": 0.12100325483438637,
      "grad_norm": 14.830269813537598,
      "learning_rate": 4.793261868300153e-06,
      "loss": 4.9584,
      "step": 632
    },
    {
      "epoch": 0.13612866168868468,
      "grad_norm": 26.075838088989258,
      "learning_rate": 5.398162327718224e-06,
      "loss": 4.5632,
      "step": 711
    },
    {
      "epoch": 0.15010530346544132,
      "eval_nli-pairs_loss": 4.265738487243652,
      "eval_nli-pairs_runtime": 12.0989,
      "eval_nli-pairs_samples_per_second": 123.978,
      "eval_nli-pairs_steps_per_second": 5.207,
      "step": 784
    },
    {
      "epoch": 0.15010530346544132,
      "eval_scitail-pairs-pos_loss": 2.458251476287842,
      "eval_scitail-pairs-pos_runtime": 15.2215,
      "eval_scitail-pairs-pos_samples_per_second": 85.668,
      "eval_scitail-pairs-pos_steps_per_second": 3.613,
      "step": 784
    },
    {
      "epoch": 0.15010530346544132,
      "eval_qnli-contrastive_loss": 4.81198263168335,
      "eval_qnli-contrastive_runtime": 4.724,
      "eval_qnli-contrastive_samples_per_second": 317.525,
      "eval_qnli-contrastive_steps_per_second": 13.336,
      "step": 784
    },
    {
      "epoch": 0.15125406854298296,
      "grad_norm": 17.387819290161133,
      "learning_rate": 6.003062787136294e-06,
      "loss": 4.223,
      "step": 790
    },
    {
      "epoch": 0.16637947539728126,
      "grad_norm": 24.702957153320312,
      "learning_rate": 6.607963246554365e-06,
      "loss": 3.8496,
      "step": 869
    },
    {
      "epoch": 0.18150488225157954,
      "grad_norm": 20.878055572509766,
      "learning_rate": 7.212863705972435e-06,
      "loss": 3.4414,
      "step": 948
    },
    {
      "epoch": 0.19663028910587785,
      "grad_norm": 28.57908821105957,
      "learning_rate": 7.817764165390506e-06,
      "loss": 3.3513,
      "step": 1027
    },
    {
      "epoch": 0.21175569596017615,
      "grad_norm": 37.09183120727539,
      "learning_rate": 8.422664624808575e-06,
      "loss": 3.5611,
      "step": 1106
    },
    {
      "epoch": 0.22515795519816198,
      "eval_nli-pairs_loss": 3.178299903869629,
      "eval_nli-pairs_runtime": 12.0715,
      "eval_nli-pairs_samples_per_second": 124.26,
      "eval_nli-pairs_steps_per_second": 5.219,
      "step": 1176
    },
    {
      "epoch": 0.22515795519816198,
      "eval_scitail-pairs-pos_loss": 1.983331561088562,
      "eval_scitail-pairs-pos_runtime": 15.1626,
      "eval_scitail-pairs-pos_samples_per_second": 86.001,
      "eval_scitail-pairs-pos_steps_per_second": 3.627,
      "step": 1176
    },
    {
      "epoch": 0.22515795519816198,
      "eval_qnli-contrastive_loss": 3.4507648944854736,
      "eval_qnli-contrastive_runtime": 4.7752,
      "eval_qnli-contrastive_samples_per_second": 314.125,
      "eval_qnli-contrastive_steps_per_second": 13.193,
      "step": 1176
    },
    {
      "epoch": 0.22688110281447443,
      "grad_norm": 22.88146209716797,
      "learning_rate": 9.027565084226646e-06,
      "loss": 3.4039,
      "step": 1185
    },
    {
      "epoch": 0.24200650966877274,
      "grad_norm": 20.4180908203125,
      "learning_rate": 9.632465543644716e-06,
      "loss": 3.4269,
      "step": 1264
    },
    {
      "epoch": 0.25713191652307105,
      "grad_norm": 23.59966278076172,
      "learning_rate": 1.0237366003062788e-05,
      "loss": 3.1573,
      "step": 1343
    },
    {
      "epoch": 0.27225732337736935,
      "grad_norm": 10.84000301361084,
      "learning_rate": 1.0842266462480856e-05,
      "loss": 3.253,
      "step": 1422
    },
    {
      "epoch": 0.2873827302316676,
      "grad_norm": 16.418413162231445,
      "learning_rate": 1.1447166921898928e-05,
      "loss": 2.7614,
      "step": 1501
    },
    {
      "epoch": 0.30021060693088264,
      "eval_nli-pairs_loss": 2.722890615463257,
      "eval_nli-pairs_runtime": 12.0687,
      "eval_nli-pairs_samples_per_second": 124.288,
      "eval_nli-pairs_steps_per_second": 5.22,
      "step": 1568
    },
    {
      "epoch": 0.30021060693088264,
      "eval_scitail-pairs-pos_loss": 1.6435188055038452,
      "eval_scitail-pairs-pos_runtime": 15.2101,
      "eval_scitail-pairs-pos_samples_per_second": 85.732,
      "eval_scitail-pairs-pos_steps_per_second": 3.616,
      "step": 1568
    },
    {
      "epoch": 0.30021060693088264,
      "eval_qnli-contrastive_loss": 2.944777011871338,
      "eval_qnli-contrastive_runtime": 4.7212,
      "eval_qnli-contrastive_samples_per_second": 317.713,
      "eval_qnli-contrastive_steps_per_second": 13.344,
      "step": 1568
    },
    {
      "epoch": 0.3025081370859659,
      "grad_norm": 20.777223587036133,
      "learning_rate": 1.2052067381317e-05,
      "loss": 2.9549,
      "step": 1580
    },
    {
      "epoch": 0.3176335439402642,
      "grad_norm": 15.09938907623291,
      "learning_rate": 1.265696784073507e-05,
      "loss": 2.8357,
      "step": 1659
    },
    {
      "epoch": 0.3327589507945625,
      "grad_norm": 5.233273983001709,
      "learning_rate": 1.326186830015314e-05,
      "loss": 2.8964,
      "step": 1738
    },
    {
      "epoch": 0.34788435764886083,
      "grad_norm": 16.8189640045166,
      "learning_rate": 1.386676875957121e-05,
      "loss": 2.8274,
      "step": 1817
    },
    {
      "epoch": 0.3630097645031591,
      "grad_norm": 8.114161491394043,
      "learning_rate": 1.4471669218989282e-05,
      "loss": 2.6809,
      "step": 1896
    },
    {
      "epoch": 0.37526325866360327,
      "eval_nli-pairs_loss": 2.428619384765625,
      "eval_nli-pairs_runtime": 12.0706,
      "eval_nli-pairs_samples_per_second": 124.269,
      "eval_nli-pairs_steps_per_second": 5.219,
      "step": 1960
    },
    {
      "epoch": 0.37526325866360327,
      "eval_scitail-pairs-pos_loss": 1.3531062602996826,
      "eval_scitail-pairs-pos_runtime": 15.2633,
      "eval_scitail-pairs-pos_samples_per_second": 85.434,
      "eval_scitail-pairs-pos_steps_per_second": 3.603,
      "step": 1960
    },
    {
      "epoch": 0.37526325866360327,
      "eval_qnli-contrastive_loss": 2.404916286468506,
      "eval_qnli-contrastive_runtime": 4.7194,
      "eval_qnli-contrastive_samples_per_second": 317.838,
      "eval_qnli-contrastive_steps_per_second": 13.349,
      "step": 1960
    },
    {
      "epoch": 0.3781351713574574,
      "grad_norm": 22.405332565307617,
      "learning_rate": 1.5076569678407352e-05,
      "loss": 2.3456,
      "step": 1975
    },
    {
      "epoch": 0.3932605782117557,
      "grad_norm": 33.843994140625,
      "learning_rate": 1.5681470137825424e-05,
      "loss": 2.5316,
      "step": 2054
    },
    {
      "epoch": 0.408385985066054,
      "grad_norm": 3.7852566242218018,
      "learning_rate": 1.6286370597243492e-05,
      "loss": 2.653,
      "step": 2133
    },
    {
      "epoch": 0.4235113919203523,
      "grad_norm": 28.830053329467773,
      "learning_rate": 1.689127105666156e-05,
      "loss": 2.699,
      "step": 2212
    },
    {
      "epoch": 0.43863679877465056,
      "grad_norm": 26.699514389038086,
      "learning_rate": 1.7496171516079635e-05,
      "loss": 2.424,
      "step": 2291
    },
    {
      "epoch": 0.45031591039632396,
      "eval_nli-pairs_loss": 2.207122564315796,
      "eval_nli-pairs_runtime": 12.0919,
      "eval_nli-pairs_samples_per_second": 124.05,
      "eval_nli-pairs_steps_per_second": 5.21,
      "step": 2352
    },
    {
      "epoch": 0.45031591039632396,
      "eval_scitail-pairs-pos_loss": 1.2252534627914429,
      "eval_scitail-pairs-pos_runtime": 15.1733,
      "eval_scitail-pairs-pos_samples_per_second": 85.941,
      "eval_scitail-pairs-pos_steps_per_second": 3.625,
      "step": 2352
    },
    {
      "epoch": 0.45031591039632396,
      "eval_qnli-contrastive_loss": 2.292630672454834,
      "eval_qnli-contrastive_runtime": 4.7338,
      "eval_qnli-contrastive_samples_per_second": 316.868,
      "eval_qnli-contrastive_steps_per_second": 13.308,
      "step": 2352
    },
    {
      "epoch": 0.45376220562894887,
      "grad_norm": 3.1586949825286865,
      "learning_rate": 1.8101071975497704e-05,
      "loss": 2.4716,
      "step": 2370
    },
    {
      "epoch": 0.4688876124832472,
      "grad_norm": 15.398905754089355,
      "learning_rate": 1.8705972434915772e-05,
      "loss": 2.0097,
      "step": 2449
    },
    {
      "epoch": 0.4840130193375455,
      "grad_norm": 2.9506657123565674,
      "learning_rate": 1.9310872894333844e-05,
      "loss": 2.3993,
      "step": 2528
    },
    {
      "epoch": 0.4991384261918438,
      "grad_norm": 18.736677169799805,
      "learning_rate": 1.9915773353751916e-05,
      "loss": 2.3295,
      "step": 2607
    },
    {
      "epoch": 0.5142638330461421,
      "grad_norm": 16.75814437866211,
      "learning_rate": 2.0520673813169984e-05,
      "loss": 2.348,
      "step": 2686
    },
    {
      "epoch": 0.5253685621290446,
      "eval_nli-pairs_loss": 2.0092170238494873,
      "eval_nli-pairs_runtime": 12.0787,
      "eval_nli-pairs_samples_per_second": 124.185,
      "eval_nli-pairs_steps_per_second": 5.216,
      "step": 2744
    },
    {
      "epoch": 0.5253685621290446,
      "eval_scitail-pairs-pos_loss": 1.0735079050064087,
      "eval_scitail-pairs-pos_runtime": 14.9317,
      "eval_scitail-pairs-pos_samples_per_second": 87.331,
      "eval_scitail-pairs-pos_steps_per_second": 3.683,
      "step": 2744
    },
    {
      "epoch": 0.5253685621290446,
      "eval_qnli-contrastive_loss": 1.9999727010726929,
      "eval_qnli-contrastive_runtime": 4.659,
      "eval_qnli-contrastive_samples_per_second": 321.961,
      "eval_qnli-contrastive_steps_per_second": 13.522,
      "step": 2744
    },
    {
      "epoch": 0.5293892399004404,
      "grad_norm": 3.6279871463775635,
      "learning_rate": 2.1125574272588056e-05,
      "loss": 2.0747,
      "step": 2765
    },
    {
      "epoch": 0.5445146467547387,
      "grad_norm": 102.07367706298828,
      "learning_rate": 2.1730474732006124e-05,
      "loss": 2.3592,
      "step": 2844
    },
    {
      "epoch": 0.5596400536090369,
      "grad_norm": 12.037158966064453,
      "learning_rate": 2.23353751914242e-05,
      "loss": 2.2563,
      "step": 2923
    },
    {
      "epoch": 0.5747654604633352,
      "grad_norm": 11.711392402648926,
      "learning_rate": 2.2940275650842267e-05,
      "loss": 2.3484,
      "step": 3002
    },
    {
      "epoch": 0.5898908673176335,
      "grad_norm": 20.607454299926758,
      "learning_rate": 2.3545176110260336e-05,
      "loss": 1.868,
      "step": 3081
    },
    {
      "epoch": 0.6004212138617653,
      "eval_nli-pairs_loss": 1.846701979637146,
      "eval_nli-pairs_runtime": 11.9121,
      "eval_nli-pairs_samples_per_second": 125.922,
      "eval_nli-pairs_steps_per_second": 5.289,
      "step": 3136
    },
    {
      "epoch": 0.6004212138617653,
      "eval_scitail-pairs-pos_loss": 0.9629871249198914,
      "eval_scitail-pairs-pos_runtime": 15.006,
      "eval_scitail-pairs-pos_samples_per_second": 86.899,
      "eval_scitail-pairs-pos_steps_per_second": 3.665,
      "step": 3136
    },
    {
      "epoch": 0.6004212138617653,
      "eval_qnli-contrastive_loss": 1.9593416452407837,
      "eval_qnli-contrastive_runtime": 4.653,
      "eval_qnli-contrastive_samples_per_second": 322.374,
      "eval_qnli-contrastive_steps_per_second": 13.54,
      "step": 3136
    },
    {
      "epoch": 0.6050162741719318,
      "grad_norm": 15.901214599609375,
      "learning_rate": 2.4150076569678408e-05,
      "loss": 1.9958,
      "step": 3160
    },
    {
      "epoch": 0.6201416810262301,
      "grad_norm": 13.168147087097168,
      "learning_rate": 2.475497702909648e-05,
      "loss": 2.0089,
      "step": 3239
    },
    {
      "epoch": 0.6352670878805284,
      "grad_norm": 21.926223754882812,
      "learning_rate": 2.5359877488514548e-05,
      "loss": 1.8303,
      "step": 3318
    },
    {
      "epoch": 0.6503924947348267,
      "grad_norm": 21.501989364624023,
      "learning_rate": 2.596477794793262e-05,
      "loss": 1.6892,
      "step": 3397
    },
    {
      "epoch": 0.665517901589125,
      "grad_norm": 3.5192618370056152,
      "learning_rate": 2.6569678407350688e-05,
      "loss": 1.8379,
      "step": 3476
    },
    {
      "epoch": 0.675473865594486,
      "eval_nli-pairs_loss": 1.7486572265625,
      "eval_nli-pairs_runtime": 12.0369,
      "eval_nli-pairs_samples_per_second": 124.617,
      "eval_nli-pairs_steps_per_second": 5.234,
      "step": 3528
    },
    {
      "epoch": 0.675473865594486,
      "eval_scitail-pairs-pos_loss": 0.9056742191314697,
      "eval_scitail-pairs-pos_runtime": 14.8901,
      "eval_scitail-pairs-pos_samples_per_second": 87.575,
      "eval_scitail-pairs-pos_steps_per_second": 3.694,
      "step": 3528
    },
    {
      "epoch": 0.675473865594486,
      "eval_qnli-contrastive_loss": 1.7076925039291382,
      "eval_qnli-contrastive_runtime": 4.6837,
      "eval_qnli-contrastive_samples_per_second": 320.259,
      "eval_qnli-contrastive_steps_per_second": 13.451,
      "step": 3528
    },
    {
      "epoch": 0.6806433084434234,
      "grad_norm": 13.107728004455566,
      "learning_rate": 2.717457886676876e-05,
      "loss": 1.4958,
      "step": 3555
    },
    {
      "epoch": 0.6957687152977217,
      "grad_norm": 10.731244087219238,
      "learning_rate": 2.777947932618683e-05,
      "loss": 1.9504,
      "step": 3634
    },
    {
      "epoch": 0.7108941221520199,
      "grad_norm": 1.3723793029785156,
      "learning_rate": 2.83843797856049e-05,
      "loss": 1.6017,
      "step": 3713
    },
    {
      "epoch": 0.7260195290063182,
      "grad_norm": 16.096094131469727,
      "learning_rate": 2.8989280245022975e-05,
      "loss": 1.7229,
      "step": 3792
    },
    {
      "epoch": 0.7411449358606165,
      "grad_norm": 14.629384994506836,
      "learning_rate": 2.9594180704441043e-05,
      "loss": 1.5996,
      "step": 3871
    },
    {
      "epoch": 0.7505265173272065,
      "eval_nli-pairs_loss": 1.6035664081573486,
      "eval_nli-pairs_runtime": 12.0239,
      "eval_nli-pairs_samples_per_second": 124.752,
      "eval_nli-pairs_steps_per_second": 5.24,
      "step": 3920
    },
    {
      "epoch": 0.7505265173272065,
      "eval_scitail-pairs-pos_loss": 0.7905139923095703,
      "eval_scitail-pairs-pos_runtime": 15.2398,
      "eval_scitail-pairs-pos_samples_per_second": 85.566,
      "eval_scitail-pairs-pos_steps_per_second": 3.609,
      "step": 3920
    },
    {
      "epoch": 0.7505265173272065,
      "eval_qnli-contrastive_loss": 1.7369401454925537,
      "eval_qnli-contrastive_runtime": 4.726,
      "eval_qnli-contrastive_samples_per_second": 317.396,
      "eval_qnli-contrastive_steps_per_second": 13.331,
      "step": 3920
    },
    {
      "epoch": 0.7562703427149148,
      "grad_norm": 12.058998107910156,
      "learning_rate": 2.999673874450528e-05,
      "loss": 1.6257,
      "step": 3950
    },
    {
      "epoch": 0.7713957495692131,
      "grad_norm": 4.181306838989258,
      "learning_rate": 2.9946841125275615e-05,
      "loss": 1.6094,
      "step": 4029
    },
    {
      "epoch": 0.7865211564235114,
      "grad_norm": 14.733617782592773,
      "learning_rate": 2.983695736786804e-05,
      "loss": 1.6061,
      "step": 4108
    },
    {
      "epoch": 0.8016465632778097,
      "grad_norm": 75.19181823730469,
      "learning_rate": 2.96675284686242e-05,
      "loss": 1.8917,
      "step": 4187
    },
    {
      "epoch": 0.816771970132108,
      "grad_norm": 17.123188018798828,
      "learning_rate": 2.943923439632653e-05,
      "loss": 1.766,
      "step": 4266
    },
    {
      "epoch": 0.8255791690599272,
      "eval_nli-pairs_loss": 1.5217715501785278,
      "eval_nli-pairs_runtime": 12.1712,
      "eval_nli-pairs_samples_per_second": 123.241,
      "eval_nli-pairs_steps_per_second": 5.176,
      "step": 4312
    },
    {
      "epoch": 0.8255791690599272,
      "eval_scitail-pairs-pos_loss": 0.7310367226600647,
      "eval_scitail-pairs-pos_runtime": 15.0699,
      "eval_scitail-pairs-pos_samples_per_second": 86.53,
      "eval_scitail-pairs-pos_steps_per_second": 3.65,
      "step": 4312
    },
    {
      "epoch": 0.8255791690599272,
      "eval_qnli-contrastive_loss": 1.8110274076461792,
      "eval_qnli-contrastive_runtime": 4.7354,
      "eval_qnli-contrastive_samples_per_second": 316.764,
      "eval_qnli-contrastive_steps_per_second": 13.304,
      "step": 4312
    },
    {
      "epoch": 0.8318973769864063,
      "grad_norm": 26.6308536529541,
      "learning_rate": 2.9152991363280456e-05,
      "loss": 1.6544,
      "step": 4345
    },
    {
      "epoch": 0.8470227838407046,
      "grad_norm": 11.87916088104248,
      "learning_rate": 2.8809948148280698e-05,
      "loss": 1.5872,
      "step": 4424
    },
    {
      "epoch": 0.8621481906950029,
      "grad_norm": 5.825096607208252,
      "learning_rate": 2.841148148621882e-05,
      "loss": 1.6237,
      "step": 4503
    },
    {
      "epoch": 0.8772735975493011,
      "grad_norm": 7.624891757965088,
      "learning_rate": 2.7959190542834895e-05,
      "loss": 1.5713,
      "step": 4582
    },
    {
      "epoch": 0.8923990044035994,
      "grad_norm": 11.067708969116211,
      "learning_rate": 2.7454890496787676e-05,
      "loss": 1.5109,
      "step": 4661
    },
    {
      "epoch": 0.9006318207926479,
      "eval_nli-pairs_loss": 1.4145296812057495,
      "eval_nli-pairs_runtime": 12.1688,
      "eval_nli-pairs_samples_per_second": 123.266,
      "eval_nli-pairs_steps_per_second": 5.177,
      "step": 4704
    },
    {
      "epoch": 0.9006318207926479,
      "eval_scitail-pairs-pos_loss": 0.7044198513031006,
      "eval_scitail-pairs-pos_runtime": 15.0745,
      "eval_scitail-pairs-pos_samples_per_second": 86.504,
      "eval_scitail-pairs-pos_steps_per_second": 3.649,
      "step": 4704
    },
    {
      "epoch": 0.9006318207926479,
      "eval_qnli-contrastive_loss": 1.5929718017578125,
      "eval_qnli-contrastive_runtime": 4.7378,
      "eval_qnli-contrastive_samples_per_second": 316.603,
      "eval_qnli-contrastive_steps_per_second": 13.297,
      "step": 4704
    },
    {
      "epoch": 0.9075244112578977,
      "grad_norm": 18.31964874267578,
      "learning_rate": 2.6900605254800455e-05,
      "loss": 1.8614,
      "step": 4740
    },
    {
      "epoch": 0.922649818112196,
      "grad_norm": 11.028084754943848,
      "learning_rate": 2.6298559329118796e-05,
      "loss": 1.2809,
      "step": 4819
    },
    {
      "epoch": 0.9377752249664943,
      "grad_norm": 11.14758586883545,
      "learning_rate": 2.565116890987845e-05,
      "loss": 1.4557,
      "step": 4898
    },
    {
      "epoch": 0.9529006318207927,
      "grad_norm": 12.307340621948242,
      "learning_rate": 2.4970023905369427e-05,
      "loss": 2.285,
      "step": 4977
    },
    {
      "epoch": 0.968026038675091,
      "grad_norm": 19.368682861328125,
      "learning_rate": 2.4249872456580537e-05,
      "loss": 1.5918,
      "step": 5056
    },
    {
      "epoch": 0.9756844725253686,
      "eval_nli-pairs_loss": 1.3622660636901855,
      "eval_nli-pairs_runtime": 12.1119,
      "eval_nli-pairs_samples_per_second": 123.845,
      "eval_nli-pairs_steps_per_second": 5.201,
      "step": 5096
    },
    {
      "epoch": 0.9756844725253686,
      "eval_scitail-pairs-pos_loss": 0.6618204116821289,
      "eval_scitail-pairs-pos_runtime": 15.1844,
      "eval_scitail-pairs-pos_samples_per_second": 85.877,
      "eval_scitail-pairs-pos_steps_per_second": 3.622,
      "step": 5096
    },
    {
      "epoch": 0.9756844725253686,
      "eval_qnli-contrastive_loss": 1.5225657224655151,
      "eval_qnli-contrastive_runtime": 4.73,
      "eval_qnli-contrastive_samples_per_second": 317.125,
      "eval_qnli-contrastive_steps_per_second": 13.319,
      "step": 5096
    },
    {
      "epoch": 0.9831514455293893,
      "grad_norm": 23.91764259338379,
      "learning_rate": 2.349353206401398e-05,
      "loss": 1.5956,
      "step": 5135
    },
    {
      "epoch": 0.9982768523836876,
      "grad_norm": 28.184560775756836,
      "learning_rate": 2.269363669859137e-05,
      "loss": 1.309,
      "step": 5214
    },
    {
      "epoch": 1.0134022592379859,
      "grad_norm": 1.2889472246170044,
      "learning_rate": 2.186286447094588e-05,
      "loss": 1.6033,
      "step": 5293
    },
    {
      "epoch": 1.0285276660922842,
      "grad_norm": 9.043930053710938,
      "learning_rate": 2.1004549518185432e-05,
      "loss": 1.2943,
      "step": 5372
    },
    {
      "epoch": 1.0436530729465825,
      "grad_norm": 15.558199882507324,
      "learning_rate": 2.012213651460107e-05,
      "loss": 1.4881,
      "step": 5451
    },
    {
      "epoch": 1.0507371242580892,
      "eval_nli-pairs_loss": 1.3221956491470337,
      "eval_nli-pairs_runtime": 12.1205,
      "eval_nli-pairs_samples_per_second": 123.757,
      "eval_nli-pairs_steps_per_second": 5.198,
      "step": 5488
    },
    {
      "epoch": 1.0507371242580892,
      "eval_scitail-pairs-pos_loss": 0.6279736161231995,
      "eval_scitail-pairs-pos_runtime": 15.0898,
      "eval_scitail-pairs-pos_samples_per_second": 86.416,
      "eval_scitail-pairs-pos_steps_per_second": 3.645,
      "step": 5488
    },
    {
      "epoch": 1.0507371242580892,
      "eval_qnli-contrastive_loss": 1.5666921138763428,
      "eval_qnli-contrastive_runtime": 4.7489,
      "eval_qnli-contrastive_samples_per_second": 315.863,
      "eval_qnli-contrastive_steps_per_second": 13.266,
      "step": 5488
    },
    {
      "epoch": 1.0587784798008808,
      "grad_norm": 22.18709373474121,
      "learning_rate": 1.921916684716005e-05,
      "loss": 1.6734,
      "step": 5530
    },
    {
      "epoch": 1.073903886655179,
      "grad_norm": 2.1289186477661133,
      "learning_rate": 1.8299264402862166e-05,
      "loss": 1.6602,
      "step": 5609
    },
    {
      "epoch": 1.0890292935094774,
      "grad_norm": 8.099466323852539,
      "learning_rate": 1.7366121024998667e-05,
      "loss": 1.4626,
      "step": 5688
    },
    {
      "epoch": 1.1041547003637757,
      "grad_norm": 11.092597007751465,
      "learning_rate": 1.642348169668238e-05,
      "loss": 1.4048,
      "step": 5767
    },
    {
      "epoch": 1.1192801072180738,
      "grad_norm": 1.632265329360962,
      "learning_rate": 1.5475129511111833e-05,
      "loss": 1.5961,
      "step": 5846
    },
    {
      "epoch": 1.12578977599081,
      "eval_nli-pairs_loss": 1.257077932357788,
      "eval_nli-pairs_runtime": 12.0966,
      "eval_nli-pairs_samples_per_second": 124.002,
      "eval_nli-pairs_steps_per_second": 5.208,
      "step": 5880
    },
    {
      "epoch": 1.12578977599081,
      "eval_scitail-pairs-pos_loss": 0.6171609163284302,
      "eval_scitail-pairs-pos_runtime": 15.2057,
      "eval_scitail-pairs-pos_samples_per_second": 85.757,
      "eval_scitail-pairs-pos_steps_per_second": 3.617,
      "step": 5880
    },
    {
      "epoch": 1.12578977599081,
      "eval_qnli-contrastive_loss": 1.4182076454162598,
      "eval_qnli-contrastive_runtime": 4.7646,
      "eval_qnli-contrastive_samples_per_second": 314.825,
      "eval_qnli-contrastive_steps_per_second": 13.223,
      "step": 5880
    },
    {
      "epoch": 1.1344055140723721,
      "grad_norm": 17.874731063842773,
      "learning_rate": 1.452487048888817e-05,
      "loss": 1.4949,
      "step": 5925
    },
    {
      "epoch": 1.1495309209266704,
      "grad_norm": 5.625218391418457,
      "learning_rate": 1.357651830331762e-05,
      "loss": 1.7542,
      "step": 6004
    },
    {
      "epoch": 1.1646563277809687,
      "grad_norm": 12.764110565185547,
      "learning_rate": 1.2633878975001336e-05,
      "loss": 1.3177,
      "step": 6083
    },
    {
      "epoch": 1.179781734635267,
      "grad_norm": 14.75761890411377,
      "learning_rate": 1.1700735597137837e-05,
      "loss": 1.1522,
      "step": 6162
    },
    {
      "epoch": 1.1949071414895653,
      "grad_norm": 7.778223037719727,
      "learning_rate": 1.078083315283995e-05,
      "loss": 1.0727,
      "step": 6241
    },
    {
      "epoch": 1.2008424277235306,
      "eval_nli-pairs_loss": 1.2002286911010742,
      "eval_nli-pairs_runtime": 12.1083,
      "eval_nli-pairs_samples_per_second": 123.882,
      "eval_nli-pairs_steps_per_second": 5.203,
      "step": 6272
    },
    {
      "epoch": 1.2008424277235306,
      "eval_scitail-pairs-pos_loss": 0.587746798992157,
      "eval_scitail-pairs-pos_runtime": 15.2398,
      "eval_scitail-pairs-pos_samples_per_second": 85.565,
      "eval_scitail-pairs-pos_steps_per_second": 3.609,
      "step": 6272
    },
    {
      "epoch": 1.2008424277235306,
      "eval_qnli-contrastive_loss": 1.5079773664474487,
      "eval_qnli-contrastive_runtime": 4.7468,
      "eval_qnli-contrastive_samples_per_second": 316.005,
      "eval_qnli-contrastive_steps_per_second": 13.272,
      "step": 6272
    },
    {
      "epoch": 1.2100325483438636,
      "grad_norm": 5.742403507232666,
      "learning_rate": 9.877863485398942e-06,
      "loss": 1.598,
      "step": 6320
    },
    {
      "epoch": 1.225157955198162,
      "grad_norm": 13.002484321594238,
      "learning_rate": 8.995450481814567e-06,
      "loss": 1.3773,
      "step": 6399
    },
    {
      "epoch": 1.2402833620524603,
      "grad_norm": 12.662968635559082,
      "learning_rate": 8.137135529054122e-06,
      "loss": 1.6495,
      "step": 6478
    },
    {
      "epoch": 1.2554087689067586,
      "grad_norm": 7.513673305511475,
      "learning_rate": 7.306363301408635e-06,
      "loss": 1.3042,
      "step": 6557
    },
    {
      "epoch": 1.2705341757610569,
      "grad_norm": 92.78031158447266,
      "learning_rate": 6.506467935986024e-06,
      "loss": 1.5158,
      "step": 6636
    },
    {
      "epoch": 1.2758950794562511,
      "eval_nli-pairs_loss": 1.1646167039871216,
      "eval_nli-pairs_runtime": 12.3376,
      "eval_nli-pairs_samples_per_second": 121.579,
      "eval_nli-pairs_steps_per_second": 5.106,
      "step": 6664
    },
    {
      "epoch": 1.2758950794562511,
      "eval_scitail-pairs-pos_loss": 0.5752041339874268,
      "eval_scitail-pairs-pos_runtime": 15.5528,
      "eval_scitail-pairs-pos_samples_per_second": 83.843,
      "eval_scitail-pairs-pos_steps_per_second": 3.536,
      "step": 6664
    },
    {
      "epoch": 1.2758950794562511,
      "eval_qnli-contrastive_loss": 1.331896424293518,
      "eval_qnli-contrastive_runtime": 4.7695,
      "eval_qnli-contrastive_samples_per_second": 314.501,
      "eval_qnli-contrastive_steps_per_second": 13.209,
      "step": 6664
    },
    {
      "epoch": 1.2856595826153552,
      "grad_norm": 11.36242961883545,
      "learning_rate": 5.740659651822936e-06,
      "loss": 1.2205,
      "step": 6715
    },
    {
      "epoch": 1.3007849894696535,
      "grad_norm": 10.5322904586792,
      "learning_rate": 5.012011866316839e-06,
      "loss": 1.3909,
      "step": 6794
    },
    {
      "epoch": 1.3159103963239518,
      "grad_norm": 2.6958863735198975,
      "learning_rate": 4.323448860683947e-06,
      "loss": 1.4255,
      "step": 6873
    },
    {
      "epoch": 1.33103580317825,
      "grad_norm": 19.98720359802246,
      "learning_rate": 3.677734043945192e-06,
      "loss": 1.5415,
      "step": 6952
    },
    {
      "epoch": 1.3461612100325484,
      "grad_norm": 3.684659719467163,
      "learning_rate": 3.077458862540392e-06,
      "loss": 1.3355,
      "step": 7031
    },
    {
      "epoch": 1.350947731188972,
      "eval_nli-pairs_loss": 1.1400986909866333,
      "eval_nli-pairs_runtime": 12.0157,
      "eval_nli-pairs_samples_per_second": 124.836,
      "eval_nli-pairs_steps_per_second": 5.243,
      "step": 7056
    },
    {
      "epoch": 1.350947731188972,
      "eval_scitail-pairs-pos_loss": 0.5660089254379272,
      "eval_scitail-pairs-pos_runtime": 15.1309,
      "eval_scitail-pairs-pos_samples_per_second": 86.181,
      "eval_scitail-pairs-pos_steps_per_second": 3.635,
      "step": 7056
    },
    {
      "epoch": 1.350947731188972,
      "eval_qnli-contrastive_loss": 1.2624869346618652,
      "eval_qnli-contrastive_runtime": 4.6898,
      "eval_qnli-contrastive_samples_per_second": 319.843,
      "eval_qnli-contrastive_steps_per_second": 13.433,
      "step": 7056
    },
    {
      "epoch": 1.3612866168868467,
      "grad_norm": 11.162321090698242,
      "learning_rate": 2.5250324000795594e-06,
      "loss": 1.5326,
      "step": 7110
    },
    {
      "epoch": 1.376412023741145,
      "grad_norm": 9.399407386779785,
      "learning_rate": 2.0226717089707925e-06,
      "loss": 1.0109,
      "step": 7189
    },
    {
      "epoch": 1.3915374305954433,
      "grad_norm": 0.5825966596603394,
      "learning_rate": 1.5723929127267211e-06,
      "loss": 1.2729,
      "step": 7268
    },
    {
      "epoch": 1.4066628374497414,
      "grad_norm": 7.376439094543457,
      "learning_rate": 1.1760031146585697e-06,
      "loss": 1.605,
      "step": 7347
    },
    {
      "epoch": 1.42178824430404,
      "grad_norm": 0.5974981188774109,
      "learning_rate": 8.350931454308347e-07,
      "loss": 1.4983,
      "step": 7426
    },
    {
      "epoch": 1.4260003829216925,
      "eval_nli-pairs_loss": 1.1365835666656494,
      "eval_nli-pairs_runtime": 11.9569,
      "eval_nli-pairs_samples_per_second": 125.451,
      "eval_nli-pairs_steps_per_second": 5.269,
      "step": 7448
    },
    {
      "epoch": 1.4260003829216925,
      "eval_scitail-pairs-pos_loss": 0.5671288371086121,
      "eval_scitail-pairs-pos_runtime": 14.9551,
      "eval_scitail-pairs-pos_samples_per_second": 87.194,
      "eval_scitail-pairs-pos_steps_per_second": 3.678,
      "step": 7448
    },
    {
      "epoch": 1.4260003829216925,
      "eval_qnli-contrastive_loss": 1.2691177129745483,
      "eval_qnli-contrastive_runtime": 4.6835,
      "eval_qnli-contrastive_samples_per_second": 320.27,
      "eval_qnli-contrastive_steps_per_second": 13.451,
      "step": 7448
    },
    {
      "epoch": 1.436913651158338,
      "grad_norm": 8.548786163330078,
      "learning_rate": 5.5103117858258e-07,
      "loss": 1.2901,
      "step": 7505
    },
    {
      "epoch": 1.4520390580126366,
      "grad_norm": 9.624091148376465,
      "learning_rate": 3.2495723963837597e-07,
      "loss": 1.4993,
      "step": 7584
    },
    {
      "epoch": 1.4671644648669346,
      "grad_norm": 18.643239974975586,
      "learning_rate": 1.5777863084531385e-07,
      "loss": 1.0473,
      "step": 7663
    },
    {
      "epoch": 1.482289871721233,
      "grad_norm": 10.979313850402832,
      "learning_rate": 5.0166289898085916e-08,
      "loss": 1.2113,
      "step": 7742
    },
    {
      "epoch": 1.4974152785755313,
      "grad_norm": 10.067323684692383,
      "learning_rate": 2.55209726558292e-09,
      "loss": 1.3604,
      "step": 7821
    },
    {
      "epoch": 1.5010530346544133,
      "eval_nli-pairs_loss": 1.1346535682678223,
      "eval_nli-pairs_runtime": 12.2237,
      "eval_nli-pairs_samples_per_second": 122.712,
      "eval_nli-pairs_steps_per_second": 5.154,
      "step": 7840
    },
    {
      "epoch": 1.5010530346544133,
      "eval_scitail-pairs-pos_loss": 0.5651898980140686,
      "eval_scitail-pairs-pos_runtime": 15.2453,
      "eval_scitail-pairs-pos_samples_per_second": 85.535,
      "eval_scitail-pairs-pos_steps_per_second": 3.608,
      "step": 7840
    },
    {
      "epoch": 1.5010530346544133,
      "eval_qnli-contrastive_loss": 1.2610852718353271,
      "eval_qnli-contrastive_runtime": 4.7666,
      "eval_qnli-contrastive_samples_per_second": 314.687,
      "eval_qnli-contrastive_steps_per_second": 13.217,
      "step": 7840
    },
    {
      "epoch": 1.5125406854298296,
      "grad_norm": 12.913325309753418,
      "learning_rate": 2.9984872857074416e-05,
      "loss": 1.4627,
      "step": 7900
    },
    {
      "epoch": 1.5276660922841279,
      "grad_norm": 13.103713035583496,
      "learning_rate": 2.9912159040536404e-05,
      "loss": 1.1015,
      "step": 7979
    },
    {
      "epoch": 1.5427914991384262,
      "grad_norm": 10.095404624938965,
      "learning_rate": 2.9779598275386362e-05,
      "loss": 1.4538,
      "step": 8058
    },
    {
      "epoch": 1.5579169059927245,
      "grad_norm": 0.5388267040252686,
      "learning_rate": 2.9587722567571802e-05,
      "loss": 1.4412,
      "step": 8137
    },
    {
      "epoch": 1.5730423128470228,
      "grad_norm": 20.366121292114258,
      "learning_rate": 2.933730197162302e-05,
      "loss": 1.4793,
      "step": 8216
    },
    {
      "epoch": 1.5761056863871339,
      "eval_nli-pairs_loss": 1.1918026208877563,
      "eval_nli-pairs_runtime": 12.158,
      "eval_nli-pairs_samples_per_second": 123.375,
      "eval_nli-pairs_steps_per_second": 5.182,
      "step": 8232
    },
    {
      "epoch": 1.5761056863871339,
      "eval_scitail-pairs-pos_loss": 0.5848828554153442,
      "eval_scitail-pairs-pos_runtime": 15.3425,
      "eval_scitail-pairs-pos_samples_per_second": 84.993,
      "eval_scitail-pairs-pos_steps_per_second": 3.585,
      "step": 8232
    },
    {
      "epoch": 1.5761056863871339,
      "eval_qnli-contrastive_loss": 1.4694615602493286,
      "eval_qnli-contrastive_runtime": 4.7988,
      "eval_qnli-contrastive_samples_per_second": 312.58,
      "eval_qnli-contrastive_steps_per_second": 13.128,
      "step": 8232
    },
    {
      "epoch": 1.588167719701321,
      "grad_norm": 19.943920135498047,
      "learning_rate": 2.9029341500194198e-05,
      "loss": 1.1267,
      "step": 8295
    },
    {
      "epoch": 1.6032931265556194,
      "grad_norm": 14.96302318572998,
      "learning_rate": 2.8665077090647462e-05,
      "loss": 1.1734,
      "step": 8374
    },
    {
      "epoch": 1.6184185334099177,
      "grad_norm": 6.065411567687988,
      "learning_rate": 2.8245970644867055e-05,
      "loss": 1.2193,
      "step": 8453
    },
    {
      "epoch": 1.633543940264216,
      "grad_norm": 15.93069076538086,
      "learning_rate": 2.7773704162210366e-05,
      "loss": 1.1381,
      "step": 8532
    },
    {
      "epoch": 1.6486693471185143,
      "grad_norm": 5.890163898468018,
      "learning_rate": 2.725017298914211e-05,
      "loss": 0.9632,
      "step": 8611
    },
    {
      "epoch": 1.6511583381198545,
      "eval_nli-pairs_loss": 1.1099625825881958,
      "eval_nli-pairs_runtime": 12.0731,
      "eval_nli-pairs_samples_per_second": 124.243,
      "eval_nli-pairs_steps_per_second": 5.218,
      "step": 8624
    },
    {
      "epoch": 1.6511583381198545,
      "eval_scitail-pairs-pos_loss": 0.5500022172927856,
      "eval_scitail-pairs-pos_runtime": 15.0341,
      "eval_scitail-pairs-pos_samples_per_second": 86.736,
      "eval_scitail-pairs-pos_steps_per_second": 3.658,
      "step": 8624
    },
    {
      "epoch": 1.6511583381198545,
      "eval_qnli-contrastive_loss": 1.208964467048645,
      "eval_qnli-contrastive_runtime": 4.6959,
      "eval_qnli-contrastive_samples_per_second": 319.43,
      "eval_qnli-contrastive_steps_per_second": 13.416,
      "step": 8624
    },
    {
      "epoch": 1.6637947539728124,
      "grad_norm": 11.52648639678955,
      "learning_rate": 2.6677478212642807e-05,
      "loss": 1.0842,
      "step": 8690
    },
    {
      "epoch": 1.678920160827111,
      "grad_norm": 8.958113670349121,
      "learning_rate": 2.6057918227919096e-05,
      "loss": 0.7981,
      "step": 8769
    },
    {
      "epoch": 1.694045567681409,
      "grad_norm": 12.083248138427734,
      "learning_rate": 2.5393979514257247e-05,
      "loss": 1.2196,
      "step": 8848
    },
    {
      "epoch": 1.7091709745357075,
      "grad_norm": 2.1500277519226074,
      "learning_rate": 2.4688326656039045e-05,
      "loss": 0.8321,
      "step": 8927
    },
    {
      "epoch": 1.7242963813900056,
      "grad_norm": 3.8833096027374268,
      "learning_rate": 2.3943791648968727e-05,
      "loss": 0.938,
      "step": 9006
    },
    {
      "epoch": 1.726210989852575,
      "eval_nli-pairs_loss": 1.1021158695220947,
      "eval_nli-pairs_runtime": 12.05,
      "eval_nli-pairs_samples_per_second": 124.482,
      "eval_nli-pairs_steps_per_second": 5.228,
      "step": 9016
    },
    {
      "epoch": 1.726210989852575,
      "eval_scitail-pairs-pos_loss": 0.519660472869873,
      "eval_scitail-pairs-pos_runtime": 15.121,
      "eval_scitail-pairs-pos_samples_per_second": 86.238,
      "eval_scitail-pairs-pos_steps_per_second": 3.637,
      "step": 9016
    },
    {
      "epoch": 1.726210989852575,
      "eval_qnli-contrastive_loss": 1.3204244375228882,
      "eval_qnli-contrastive_runtime": 4.6913,
      "eval_qnli-contrastive_samples_per_second": 319.739,
      "eval_qnli-contrastive_steps_per_second": 13.429,
      "step": 9016
    },
    {
      "epoch": 1.7394217882443042,
      "grad_norm": 9.389202117919922,
      "learning_rate": 2.316336253442829e-05,
      "loss": 1.0008,
      "step": 9085
    },
    {
      "epoch": 1.7545471950986022,
      "grad_norm": 0.5910531282424927,
      "learning_rate": 2.235017140757486e-05,
      "loss": 0.8644,
      "step": 9164
    },
    {
      "epoch": 1.7696726019529008,
      "grad_norm": 5.645143032073975,
      "learning_rate": 2.1507481847307262e-05,
      "loss": 1.0459,
      "step": 9243
    },
    {
      "epoch": 1.7847980088071989,
      "grad_norm": 2.0821499824523926,
      "learning_rate": 2.0638675818549023e-05,
      "loss": 0.9344,
      "step": 9322
    },
    {
      "epoch": 1.7999234156614974,
      "grad_norm": 10.352788925170898,
      "learning_rate": 1.9747240099412936e-05,
      "loss": 1.0636,
      "step": 9401
    },
    {
      "epoch": 1.8012636415852958,
      "eval_nli-pairs_loss": 1.0661962032318115,
      "eval_nli-pairs_runtime": 11.9602,
      "eval_nli-pairs_samples_per_second": 125.416,
      "eval_nli-pairs_steps_per_second": 5.267,
      "step": 9408
    },
    {
      "epoch": 1.8012636415852958,
      "eval_scitail-pairs-pos_loss": 0.5188334584236145,
      "eval_scitail-pairs-pos_runtime": 15.0572,
      "eval_scitail-pairs-pos_samples_per_second": 86.603,
      "eval_scitail-pairs-pos_steps_per_second": 3.653,
      "step": 9408
    },
    {
      "epoch": 1.8012636415852958,
      "eval_qnli-contrastive_loss": 0.9691615700721741,
      "eval_qnli-contrastive_runtime": 4.7039,
      "eval_qnli-contrastive_samples_per_second": 318.886,
      "eval_qnli-contrastive_steps_per_second": 13.393,
      "step": 9408
    },
    {
      "epoch": 1.8150488225157955,
      "grad_norm": 7.344937801361084,
      "learning_rate": 1.8836752287718936e-05,
      "loss": 1.2482,
      "step": 9480
    },
    {
      "epoch": 1.8301742293700938,
      "grad_norm": 1.0527677536010742,
      "learning_rate": 1.7910866443025426e-05,
      "loss": 1.0134,
      "step": 9559
    },
    {
      "epoch": 1.845299636224392,
      "grad_norm": 13.278373718261719,
      "learning_rate": 1.6973298421796733e-05,
      "loss": 0.981,
      "step": 9638
    },
    {
      "epoch": 1.8604250430786904,
      "grad_norm": 2.146714448928833,
      "learning_rate": 1.6027810964561188e-05,
      "loss": 1.0289,
      "step": 9717
    },
    {
      "epoch": 1.8755504499329887,
      "grad_norm": 13.393159866333008,
      "learning_rate": 1.5078198594909435e-05,
      "loss": 0.9656,
      "step": 9796
    },
    {
      "epoch": 1.8763162933180164,
      "eval_nli-pairs_loss": 1.0254323482513428,
      "eval_nli-pairs_runtime": 12.1952,
      "eval_nli-pairs_samples_per_second": 122.999,
      "eval_nli-pairs_steps_per_second": 5.166,
      "step": 9800
    },
    {
      "epoch": 1.8763162933180164,
      "eval_scitail-pairs-pos_loss": 0.496192991733551,
      "eval_scitail-pairs-pos_runtime": 15.1968,
      "eval_scitail-pairs-pos_samples_per_second": 85.808,
      "eval_scitail-pairs-pos_steps_per_second": 3.619,
      "step": 9800
    },
    {
      "epoch": 1.8763162933180164,
      "eval_qnli-contrastive_loss": 1.0920603275299072,
      "eval_qnli-contrastive_runtime": 4.731,
      "eval_qnli-contrastive_samples_per_second": 317.056,
      "eval_qnli-contrastive_steps_per_second": 13.316,
      "step": 9800
    },
    {
      "epoch": 1.890675856787287,
      "grad_norm": 15.524497032165527,
      "learning_rate": 1.412827239093775e-05,
      "loss": 0.9088,
      "step": 9875
    },
    {
      "epoch": 1.9058012636415853,
      "grad_norm": 67.18510437011719,
      "learning_rate": 1.3181844690253298e-05,
      "loss": 1.2097,
      "step": 9954
    },
    {
      "epoch": 1.9209266704958836,
      "grad_norm": 5.732685565948486,
      "learning_rate": 1.2242713789924544e-05,
      "loss": 0.7741,
      "step": 10033
    },
    {
      "epoch": 1.936052077350182,
      "grad_norm": 6.51609992980957,
      "learning_rate": 1.13146487027805e-05,
      "loss": 0.8206,
      "step": 10112
    },
    {
      "epoch": 1.9511774842044802,
      "grad_norm": 6.481364727020264,
      "learning_rate": 1.040137403123638e-05,
      "loss": 0.8686,
      "step": 10191
    },
    {
      "epoch": 1.9513689450507372,
      "eval_nli-pairs_loss": 1.0038272142410278,
      "eval_nli-pairs_runtime": 12.0711,
      "eval_nli-pairs_samples_per_second": 124.264,
      "eval_nli-pairs_steps_per_second": 5.219,
      "step": 10192
    },
    {
      "epoch": 1.9513689450507372,
      "eval_scitail-pairs-pos_loss": 0.4778198003768921,
      "eval_scitail-pairs-pos_runtime": 15.3152,
      "eval_scitail-pairs-pos_samples_per_second": 85.144,
      "eval_scitail-pairs-pos_steps_per_second": 3.591,
      "step": 10192
    },
    {
      "epoch": 1.9513689450507372,
      "eval_qnli-contrastive_loss": 0.9486138820648193,
      "eval_qnli-contrastive_runtime": 4.7421,
      "eval_qnli-contrastive_samples_per_second": 316.315,
      "eval_qnli-contrastive_steps_per_second": 13.285,
      "step": 10192
    },
    {
      "epoch": 1.9663028910587785,
      "grad_norm": 9.677536964416504,
      "learning_rate": 9.50655501935166e-06,
      "loss": 0.7649,
      "step": 10270
    },
    {
      "epoch": 1.9814282979130766,
      "grad_norm": 8.125744819641113,
      "learning_rate": 8.633782843110642e-06,
      "loss": 0.9249,
      "step": 10349
    },
    {
      "epoch": 1.9965537047673751,
      "grad_norm": 3.1055586338043213,
      "learning_rate": 7.797110684759332e-06,
      "loss": 0.6997,
      "step": 10428
    },
    {
      "epoch": 2.0116791116216732,
      "grad_norm": 7.393470764160156,
      "learning_rate": 6.978450495850865e-06,
      "loss": 1.06,
      "step": 10507
    },
    {
      "epoch": 2.026421596783458,
      "eval_nli-pairs_loss": 1.000571608543396,
      "eval_nli-pairs_runtime": 12.5554,
      "eval_nli-pairs_samples_per_second": 119.47,
      "eval_nli-pairs_steps_per_second": 5.018,
      "step": 10584
    },
    {
      "epoch": 2.026421596783458,
      "eval_scitail-pairs-pos_loss": 0.48184335231781006,
      "eval_scitail-pairs-pos_runtime": 15.4715,
      "eval_scitail-pairs-pos_samples_per_second": 84.284,
      "eval_scitail-pairs-pos_steps_per_second": 3.555,
      "step": 10584
    },
    {
      "epoch": 2.026421596783458,
      "eval_qnli-contrastive_loss": 0.9664335250854492,
      "eval_qnli-contrastive_runtime": 4.7851,
      "eval_qnli-contrastive_samples_per_second": 313.474,
      "eval_qnli-contrastive_steps_per_second": 13.166,
      "step": 10584
    },
    {
      "epoch": 2.0268045184759718,
      "grad_norm": 12.336913108825684,
      "learning_rate": 6.191983181204208e-06,
      "loss": 0.9447,
      "step": 10586
    },
    {
      "epoch": 2.04192992533027,
      "grad_norm": 4.7379984855651855,
      "learning_rate": 5.440865069077124e-06,
      "loss": 1.0151,
      "step": 10665
    },
    {
      "epoch": 2.0570553321845684,
      "grad_norm": 27.00238800048828,
      "learning_rate": 4.728110620818674e-06,
      "loss": 1.113,
      "step": 10744
    },
    {
      "epoch": 2.0721807390388665,
      "grad_norm": 17.84748649597168,
      "learning_rate": 4.0565803329351935e-06,
      "loss": 1.1183,
      "step": 10823
    },
    {
      "epoch": 2.087306145893165,
      "grad_norm": 15.165081977844238,
      "learning_rate": 3.4289692570634956e-06,
      "loss": 1.1639,
      "step": 10902
    },
    {
      "epoch": 2.1014742485161784,
      "eval_nli-pairs_loss": 0.9944142699241638,
      "eval_nli-pairs_runtime": 12.004,
      "eval_nli-pairs_samples_per_second": 124.958,
      "eval_nli-pairs_steps_per_second": 5.248,
      "step": 10976
    },
    {
      "epoch": 2.1014742485161784,
      "eval_scitail-pairs-pos_loss": 0.47857147455215454,
      "eval_scitail-pairs-pos_runtime": 15.1823,
      "eval_scitail-pairs-pos_samples_per_second": 85.89,
      "eval_scitail-pairs-pos_steps_per_second": 3.623,
      "step": 10976
    },
    {
      "epoch": 2.1014742485161784,
      "eval_qnli-contrastive_loss": 0.9332481026649475,
      "eval_qnli-contrastive_runtime": 4.7377,
      "eval_qnli-contrastive_samples_per_second": 316.609,
      "eval_qnli-contrastive_steps_per_second": 13.298,
      "step": 10976
    },
    {
      "epoch": 2.102431552747463,
      "grad_norm": 14.085611343383789,
      "learning_rate": 2.847796183923562e-06,
      "loss": 1.0222,
      "step": 10981
    },
    {
      "epoch": 2.1175569596017616,
      "grad_norm": 9.214906692504883,
      "learning_rate": 2.3153935346589784e-06,
      "loss": 1.244,
      "step": 11060
    },
    {
      "epoch": 2.1326823664560597,
      "grad_norm": 28.293725967407227,
      "learning_rate": 1.8338980001342158e-06,
      "loss": 1.0128,
      "step": 11139
    },
    {
      "epoch": 2.147807773310358,
      "grad_norm": 7.782803058624268,
      "learning_rate": 1.4052419657559468e-06,
      "loss": 1.3783,
      "step": 11218
    },
    {
      "epoch": 2.1629331801646563,
      "grad_norm": 8.853714942932129,
      "learning_rate": 1.0311457562331311e-06,
      "loss": 1.0301,
      "step": 11297
    },
    {
      "epoch": 2.176526900248899,
      "eval_nli-pairs_loss": 0.9802760481834412,
      "eval_nli-pairs_runtime": 11.9822,
      "eval_nli-pairs_samples_per_second": 125.185,
      "eval_nli-pairs_steps_per_second": 5.258,
      "step": 11368
    },
    {
      "epoch": 2.176526900248899,
      "eval_scitail-pairs-pos_loss": 0.47513890266418457,
      "eval_scitail-pairs-pos_runtime": 15.0277,
      "eval_scitail-pairs-pos_samples_per_second": 86.773,
      "eval_scitail-pairs-pos_steps_per_second": 3.66,
      "step": 11368
    },
    {
      "epoch": 2.176526900248899,
      "eval_qnli-contrastive_loss": 0.9649375677108765,
      "eval_qnli-contrastive_runtime": 4.7258,
      "eval_qnli-contrastive_samples_per_second": 317.404,
      "eval_qnli-contrastive_steps_per_second": 13.331,
      "step": 11368
    },
    {
      "epoch": 2.178058587018955,
      "grad_norm": 9.836175918579102,
      "learning_rate": 7.131107314001456e-07,
      "loss": 0.8699,
      "step": 11376
    },
    {
      "epoch": 2.193183993873253,
      "grad_norm": 6.889993190765381,
      "learning_rate": 4.5241326081128687e-07,
      "loss": 0.7565,
      "step": 11455
    },
    {
      "epoch": 2.2083094007275514,
      "grad_norm": 7.592372894287109,
      "learning_rate": 2.500996012884593e-07,
      "loss": 1.3038,
      "step": 11534
    },
    {
      "epoch": 2.2234348075818495,
      "grad_norm": 2.2131893634796143,
      "learning_rate": 1.069816979800553e-07,
      "loss": 0.9584,
      "step": 11613
    },
    {
      "epoch": 2.2385602144361476,
      "grad_norm": 129.076904296875,
      "learning_rate": 2.3633925782526324e-08,
      "loss": 1.4689,
      "step": 11692
    },
    {
      "epoch": 2.25157955198162,
      "eval_nli-pairs_loss": 0.9801518321037292,
      "eval_nli-pairs_runtime": 12.0172,
      "eval_nli-pairs_samples_per_second": 124.821,
      "eval_nli-pairs_steps_per_second": 5.242,
      "step": 11760
    },
    {
      "epoch": 2.25157955198162,
      "eval_scitail-pairs-pos_loss": 0.4722036123275757,
      "eval_scitail-pairs-pos_runtime": 15.1727,
      "eval_scitail-pairs-pos_samples_per_second": 85.944,
      "eval_scitail-pairs-pos_steps_per_second": 3.625,
      "step": 11760
    },
    {
      "epoch": 2.25157955198162,
      "eval_qnli-contrastive_loss": 0.9584055542945862,
      "eval_qnli-contrastive_runtime": 4.7605,
      "eval_qnli-contrastive_samples_per_second": 315.092,
      "eval_qnli-contrastive_steps_per_second": 13.234,
      "step": 11760
    },
    {
      "epoch": 2.253685621290446,
      "grad_norm": 9.094249725341797,
      "learning_rate": 2.999960921579765e-05,
      "loss": 0.9979,
      "step": 11771
    },
    {
      "epoch": 2.2688110281447442,
      "grad_norm": 14.057835578918457,
      "learning_rate": 2.9962654445090394e-05,
      "loss": 1.3444,
      "step": 11850
    },
    {
      "epoch": 2.2839364349990428,
      "grad_norm": 8.33903694152832,
      "learning_rate": 2.9865650072629244e-05,
      "loss": 1.2052,
      "step": 11929
    },
    {
      "epoch": 2.299061841853341,
      "grad_norm": 5.676733493804932,
      "learning_rate": 2.970898540593688e-05,
      "loss": 1.2007,
      "step": 12008
    },
    {
      "epoch": 2.3141872487076394,
      "grad_norm": 3.648158550262451,
      "learning_rate": 2.9493289187117727e-05,
      "loss": 1.1402,
      "step": 12087
    },
    {
      "epoch": 2.3266322037143405,
      "eval_nli-pairs_loss": 1.0052505731582642,
      "eval_nli-pairs_runtime": 12.1373,
      "eval_nli-pairs_samples_per_second": 123.586,
      "eval_nli-pairs_steps_per_second": 5.191,
      "step": 12152
    },
    {
      "epoch": 2.3266322037143405,
      "eval_scitail-pairs-pos_loss": 0.47668519616127014,
      "eval_scitail-pairs-pos_runtime": 15.0626,
      "eval_scitail-pairs-pos_samples_per_second": 86.572,
      "eval_scitail-pairs-pos_steps_per_second": 3.651,
      "step": 12152
    },
    {
      "epoch": 2.3266322037143405,
      "eval_qnli-contrastive_loss": 1.2372807264328003,
      "eval_qnli-contrastive_runtime": 4.7164,
      "eval_qnli-contrastive_samples_per_second": 318.038,
      "eval_qnli-contrastive_steps_per_second": 13.358,
      "step": 12152
    },
    {
      "epoch": 2.3293126555619375,
      "grad_norm": 4.789942741394043,
      "learning_rate": 2.9219427069528128e-05,
      "loss": 1.5263,
      "step": 12166
    },
    {
      "epoch": 2.344438062416236,
      "grad_norm": 14.52586555480957,
      "learning_rate": 2.8888498143650785e-05,
      "loss": 1.263,
      "step": 12245
    },
    {
      "epoch": 2.359563469270534,
      "grad_norm": 2.835966110229492,
      "learning_rate": 2.8501830526116386e-05,
      "loss": 1.1912,
      "step": 12324
    },
    {
      "epoch": 2.3746888761248326,
      "grad_norm": 14.9393949508667,
      "learning_rate": 2.8060976029574842e-05,
      "loss": 1.0982,
      "step": 12403
    },
    {
      "epoch": 2.3898142829791307,
      "grad_norm": 8.84047794342041,
      "learning_rate": 2.7567703934807572e-05,
      "loss": 1.1574,
      "step": 12482
    },
    {
      "epoch": 2.401684855447061,
      "eval_nli-pairs_loss": 0.9759184122085571,
      "eval_nli-pairs_runtime": 12.2553,
      "eval_nli-pairs_samples_per_second": 122.396,
      "eval_nli-pairs_steps_per_second": 5.141,
      "step": 12544
    },
    {
      "epoch": 2.401684855447061,
      "eval_scitail-pairs-pos_loss": 0.4914855659008026,
      "eval_scitail-pairs-pos_runtime": 15.0918,
      "eval_scitail-pairs-pos_samples_per_second": 86.404,
      "eval_scitail-pairs-pos_steps_per_second": 3.644,
      "step": 12544
    },
    {
      "epoch": 2.401684855447061,
      "eval_qnli-contrastive_loss": 1.1089410781860352,
      "eval_qnli-contrastive_runtime": 4.7223,
      "eval_qnli-contrastive_samples_per_second": 317.644,
      "eval_qnli-contrastive_steps_per_second": 13.341,
      "step": 12544
    },
    {
      "epoch": 2.404939689833429,
      "grad_norm": 11.71249008178711,
      "learning_rate": 2.7023993890075236e-05,
      "loss": 1.4077,
      "step": 12561
    },
    {
      "epoch": 2.4200650966877273,
      "grad_norm": 2.904869794845581,
      "learning_rate": 2.6432027966197927e-05,
      "loss": 1.3183,
      "step": 12640
    },
    {
      "epoch": 2.435190503542026,
      "grad_norm": 9.094073295593262,
      "learning_rate": 2.579418189925317e-05,
      "loss": 1.0883,
      "step": 12719
    },
    {
      "epoch": 2.450315910396324,
      "grad_norm": 9.701898574829102,
      "learning_rate": 2.5113015556037383e-05,
      "loss": 1.3182,
      "step": 12798
    },
    {
      "epoch": 2.4654413172506224,
      "grad_norm": 6.8915581703186035,
      "learning_rate": 2.4391262660555785e-05,
      "loss": 1.0089,
      "step": 12877
    },
    {
      "epoch": 2.4767375071797817,
      "eval_nli-pairs_loss": 0.9481552243232727,
      "eval_nli-pairs_runtime": 12.17,
      "eval_nli-pairs_samples_per_second": 123.254,
      "eval_nli-pairs_steps_per_second": 5.177,
      "step": 12936
    },
    {
      "epoch": 2.4767375071797817,
      "eval_scitail-pairs-pos_loss": 0.4552152752876282,
      "eval_scitail-pairs-pos_runtime": 15.2525,
      "eval_scitail-pairs-pos_samples_per_second": 85.494,
      "eval_scitail-pairs-pos_steps_per_second": 3.606,
      "step": 12936
    },
    {
      "epoch": 2.4767375071797817,
      "eval_qnli-contrastive_loss": 1.1650612354278564,
      "eval_qnli-contrastive_runtime": 4.7586,
      "eval_qnli-contrastive_samples_per_second": 315.216,
      "eval_qnli-contrastive_steps_per_second": 13.239,
      "step": 12936
    },
    {
      "epoch": 2.4805667241049205,
      "grad_norm": 9.97049617767334,
      "learning_rate": 2.3631819822771357e-05,
      "loss": 1.0616,
      "step": 12956
    },
    {
      "epoch": 2.4956921309592186,
      "grad_norm": 10.72946548461914,
      "learning_rate": 2.2837734913643845e-05,
      "loss": 1.1083,
      "step": 13035
    },
    {
      "epoch": 2.510817537813517,
      "grad_norm": 6.889919281005859,
      "learning_rate": 2.2012194833113163e-05,
      "loss": 1.2687,
      "step": 13114
    },
    {
      "epoch": 2.5259429446678157,
      "grad_norm": 2.167541742324829,
      "learning_rate": 2.1158512720117925e-05,
      "loss": 0.698,
      "step": 13193
    },
    {
      "epoch": 2.5410683515221137,
      "grad_norm": 6.788521766662598,
      "learning_rate": 2.0280114655979378e-05,
      "loss": 1.0596,
      "step": 13272
    },
    {
      "epoch": 2.5517901589125023,
      "eval_nli-pairs_loss": 0.9386218786239624,
      "eval_nli-pairs_runtime": 12.1882,
      "eval_nli-pairs_samples_per_second": 123.07,
      "eval_nli-pairs_steps_per_second": 5.169,
      "step": 13328
    },
    {
      "epoch": 2.5517901589125023,
      "eval_scitail-pairs-pos_loss": 0.45524224638938904,
      "eval_scitail-pairs-pos_runtime": 15.3268,
      "eval_scitail-pairs-pos_samples_per_second": 85.08,
      "eval_scitail-pairs-pos_steps_per_second": 3.588,
      "step": 13328
    },
    {
      "epoch": 2.5517901589125023,
      "eval_qnli-contrastive_loss": 1.053303837776184,
      "eval_qnli-contrastive_runtime": 4.7606,
      "eval_qnli-contrastive_samples_per_second": 315.086,
      "eval_qnli-contrastive_steps_per_second": 13.234,
      "step": 13328
    },
    {
      "epoch": 2.556193758376412,
      "grad_norm": 5.612150192260742,
      "learning_rate": 1.9380525914513508e-05,
      "loss": 1.1182,
      "step": 13351
    },
    {
      "epoch": 2.5713191652307104,
      "grad_norm": 5.856744289398193,
      "learning_rate": 1.8463356814054177e-05,
      "loss": 0.9092,
      "step": 13430
    },
    {
      "epoch": 2.586444572085009,
      "grad_norm": 3.5007331371307373,
      "learning_rate": 1.7532288228167412e-05,
      "loss": 0.8628,
      "step": 13509
    },
    {
      "epoch": 2.601569978939307,
      "grad_norm": 3.8348581790924072,
      "learning_rate": 1.6591056813206084e-05,
      "loss": 0.762,
      "step": 13588
    },
    {
      "epoch": 2.616695385793605,
      "grad_norm": 3.7152531147003174,
      "learning_rate": 1.564344001199179e-05,
      "loss": 0.9521,
      "step": 13667
    },
    {
      "epoch": 2.626842810645223,
      "eval_nli-pairs_loss": 0.8889521956443787,
      "eval_nli-pairs_runtime": 12.1548,
      "eval_nli-pairs_samples_per_second": 123.408,
      "eval_nli-pairs_steps_per_second": 5.183,
      "step": 13720
    },
    {
      "epoch": 2.626842810645223,
      "eval_scitail-pairs-pos_loss": 0.45236507058143616,
      "eval_scitail-pairs-pos_runtime": 15.2247,
      "eval_scitail-pairs-pos_samples_per_second": 85.65,
      "eval_scitail-pairs-pos_steps_per_second": 3.613,
      "step": 13720
    },
    {
      "epoch": 2.626842810645223,
      "eval_qnli-contrastive_loss": 0.794640302658081,
      "eval_qnli-contrastive_runtime": 4.8223,
      "eval_qnli-contrastive_samples_per_second": 311.053,
      "eval_qnli-contrastive_steps_per_second": 13.064,
      "step": 13720
    },
    {
      "epoch": 2.6318207926479036,
      "grad_norm": 8.717215538024902,
      "learning_rate": 1.4693240893808674e-05,
      "loss": 0.8631,
      "step": 13746
    },
    {
      "epoch": 2.6469461995022017,
      "grad_norm": 0.3876877725124359,
      "learning_rate": 1.3744272891550144e-05,
      "loss": 0.6899,
      "step": 13825
    },
    {
      "epoch": 2.6620716063565,
      "grad_norm": 0.41043633222579956,
      "learning_rate": 1.2800344497273615e-05,
      "loss": 0.6552,
      "step": 13904
    },
    {
      "epoch": 2.6771970132107983,
      "grad_norm": 0.8379763960838318,
      "learning_rate": 1.1865243977584432e-05,
      "loss": 0.572,
      "step": 13983
    },
    {
      "epoch": 2.692322420065097,
      "grad_norm": 4.94291877746582,
      "learning_rate": 1.0942724170190126e-05,
      "loss": 0.9809,
      "step": 14062
    },
    {
      "epoch": 2.701895462377944,
      "eval_nli-pairs_loss": 0.8912826180458069,
      "eval_nli-pairs_runtime": 12.096,
      "eval_nli-pairs_samples_per_second": 124.008,
      "eval_nli-pairs_steps_per_second": 5.208,
      "step": 14112
    },
    {
      "epoch": 2.701895462377944,
      "eval_scitail-pairs-pos_loss": 0.4352218210697174,
      "eval_scitail-pairs-pos_runtime": 15.0606,
      "eval_scitail-pairs-pos_samples_per_second": 86.584,
      "eval_scitail-pairs-pos_steps_per_second": 3.652,
      "step": 14112
    },
    {
      "epoch": 2.701895462377944,
      "eval_qnli-contrastive_loss": 0.727630078792572,
      "eval_qnli-contrastive_runtime": 4.7927,
      "eval_qnli-contrastive_samples_per_second": 312.979,
      "eval_qnli-contrastive_steps_per_second": 13.145,
      "step": 14112
    },
    {
      "epoch": 2.707447826919395,
      "grad_norm": 2.8381199836730957,
      "learning_rate": 1.0036487422641892e-05,
      "loss": 0.5392,
      "step": 14141
    },
    {
      "epoch": 2.7225732337736934,
      "grad_norm": 9.423616409301758,
      "learning_rate": 9.150170733707937e-06,
      "loss": 0.6777,
      "step": 14220
    },
    {
      "epoch": 2.7376986406279915,
      "grad_norm": 0.6272808909416199,
      "learning_rate": 8.287331157010844e-06,
      "loss": 0.6523,
      "step": 14299
    },
    {
      "epoch": 2.75282404748229,
      "grad_norm": 0.7308062314987183,
      "learning_rate": 7.4514315255090594e-06,
      "loss": 0.6416,
      "step": 14378
    },
    {
      "epoch": 2.767949454336588,
      "grad_norm": 4.945492267608643,
      "learning_rate": 6.645826554113819e-06,
      "loss": 0.7713,
      "step": 14457
    },
    {
      "epoch": 2.7769481141106644,
      "eval_nli-pairs_loss": 0.872556209564209,
      "eval_nli-pairs_runtime": 12.1015,
      "eval_nli-pairs_samples_per_second": 123.952,
      "eval_nli-pairs_steps_per_second": 5.206,
      "step": 14504
    },
    {
      "epoch": 2.7769481141106644,
      "eval_scitail-pairs-pos_loss": 0.42709970474243164,
      "eval_scitail-pairs-pos_runtime": 15.0845,
      "eval_scitail-pairs-pos_samples_per_second": 86.446,
      "eval_scitail-pairs-pos_steps_per_second": 3.646,
      "step": 14504
    },
    {
      "epoch": 2.7769481141106644,
      "eval_qnli-contrastive_loss": 0.7923160791397095,
      "eval_qnli-contrastive_runtime": 4.7233,
      "eval_qnli-contrastive_samples_per_second": 317.576,
      "eval_qnli-contrastive_steps_per_second": 13.338,
      "step": 14504
    },
    {
      "epoch": 2.7830748611908867,
      "grad_norm": 9.502604484558105,
      "learning_rate": 5.873749376215993e-06,
      "loss": 0.6531,
      "step": 14536
    },
    {
      "epoch": 2.7982002680451847,
      "grad_norm": 6.348124980926514,
      "learning_rate": 5.138298568156192e-06,
      "loss": 0.7056,
      "step": 14615
    },
    {
      "epoch": 2.813325674899483,
      "grad_norm": 4.395310401916504,
      "learning_rate": 4.442425713712258e-06,
      "loss": 1.054,
      "step": 14694
    },
    {
      "epoch": 2.8284510817537813,
      "grad_norm": 5.8618011474609375,
      "learning_rate": 3.7889235585119115e-06,
      "loss": 0.8535,
      "step": 14773
    },
    {
      "epoch": 2.84357648860808,
      "grad_norm": 7.8259406089782715,
      "learning_rate": 3.1804148019103528e-06,
      "loss": 0.7321,
      "step": 14852
    },
    {
      "epoch": 2.852000765843385,
      "eval_nli-pairs_loss": 0.8661790490150452,
      "eval_nli-pairs_runtime": 12.1048,
      "eval_nli-pairs_samples_per_second": 123.917,
      "eval_nli-pairs_steps_per_second": 5.205,
      "step": 14896
    },
    {
      "epoch": 2.852000765843385,
      "eval_scitail-pairs-pos_loss": 0.4211391508579254,
      "eval_scitail-pairs-pos_runtime": 15.1135,
      "eval_scitail-pairs-pos_samples_per_second": 86.28,
      "eval_scitail-pairs-pos_steps_per_second": 3.639,
      "step": 14896
    },
    {
      "epoch": 2.852000765843385,
      "eval_qnli-contrastive_loss": 0.7693744897842407,
      "eval_qnli-contrastive_runtime": 4.7208,
      "eval_qnli-contrastive_samples_per_second": 317.743,
      "eval_qnli-contrastive_steps_per_second": 13.345,
      "step": 14896
    },
    {
      "epoch": 2.858701895462378,
      "grad_norm": 8.156476974487305,
      "learning_rate": 2.6193415713143028e-06,
      "loss": 0.8236,
      "step": 14931
    },
    {
      "epoch": 2.873827302316676,
      "grad_norm": 0.3863189220428467,
      "learning_rate": 2.107955621195247e-06,
      "loss": 0.776,
      "step": 15010
    },
    {
      "epoch": 2.8889527091709746,
      "grad_norm": 0.4337412118911743,
      "learning_rate": 1.6483092961261291e-06,
      "loss": 0.7049,
      "step": 15089
    },
    {
      "epoch": 2.904078116025273,
      "grad_norm": 0.5512604117393494,
      "learning_rate": 1.2422472941095199e-06,
      "loss": 0.9409,
      "step": 15168
    },
    {
      "epoch": 2.919203522879571,
      "grad_norm": 4.254249572753906,
      "learning_rate": 8.913992632535123e-07,
      "loss": 0.7416,
      "step": 15247
    },
    {
      "epoch": 2.9270534175761056,
      "eval_nli-pairs_loss": 0.8609779477119446,
      "eval_nli-pairs_runtime": 12.2133,
      "eval_nli-pairs_samples_per_second": 122.817,
      "eval_nli-pairs_steps_per_second": 5.158,
      "step": 15288
    },
    {
      "epoch": 2.9270534175761056,
      "eval_scitail-pairs-pos_loss": 0.42045190930366516,
      "eval_scitail-pairs-pos_runtime": 15.4078,
      "eval_scitail-pairs-pos_samples_per_second": 84.632,
      "eval_scitail-pairs-pos_steps_per_second": 3.57,
      "step": 15288
    },
    {
      "epoch": 2.9270534175761056,
      "eval_qnli-contrastive_loss": 0.7351691722869873,
      "eval_qnli-contrastive_runtime": 4.7717,
      "eval_qnli-contrastive_samples_per_second": 314.351,
      "eval_qnli-contrastive_steps_per_second": 13.203,
      "step": 15288
    },
    {
      "epoch": 2.9343289297338693,
      "grad_norm": 6.785557270050049,
      "learning_rate": 5.971732615070724e-07,
      "loss": 0.6059,
      "step": 15326
    },
    {
      "epoch": 2.949454336588168,
      "grad_norm": 14.958471298217773,
      "learning_rate": 3.6075010570289336e-07,
      "loss": 0.6598,
      "step": 15405
    },
    {
      "epoch": 2.964579743442466,
      "grad_norm": 0.34104809165000916,
      "learning_rate": 1.8307863258672674e-07,
      "loss": 0.5777,
      "step": 15484
    },
    {
      "epoch": 2.9797051502967644,
      "grad_norm": 0.6522515416145325,
      "learning_rate": 6.487189085208289e-08,
      "loss": 0.8212,
      "step": 15563
    },
    {
      "epoch": 2.9948305571510625,
      "grad_norm": 0.3607589304447174,
      "learning_rate": 6.6042794628590194e-09,
      "loss": 0.5638,
      "step": 15642
    }
  ],
  "logging_steps": 79,
  "max_steps": 15669,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 3918,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 30,
  "trial_name": null,
  "trial_params": null
}