{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8006206361520558,
  "eval_steps": 20,
  "global_step": 1032,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007757951900698216,
      "grad_norm": Infinity,
      "learning_rate": 0.0,
      "loss": 6.6798,
      "step": 1
    },
    {
      "epoch": 0.0015515903801396431,
      "grad_norm": 19.460369110107422,
      "learning_rate": 4.112808460634547e-08,
      "loss": 6.1418,
      "step": 2
    },
    {
      "epoch": 0.0023273855702094647,
      "grad_norm": 38.97050857543945,
      "learning_rate": 8.225616921269094e-08,
      "loss": 6.8984,
      "step": 3
    },
    {
      "epoch": 0.0031031807602792862,
      "grad_norm": 25.763484954833984,
      "learning_rate": 1.2338425381903642e-07,
      "loss": 7.1881,
      "step": 4
    },
    {
      "epoch": 0.003878975950349108,
      "grad_norm": 11.17786979675293,
      "learning_rate": 1.6451233842538187e-07,
      "loss": 5.5114,
      "step": 5
    },
    {
      "epoch": 0.004654771140418929,
      "grad_norm": 15.640860557556152,
      "learning_rate": 2.0564042303172737e-07,
      "loss": 6.2131,
      "step": 6
    },
    {
      "epoch": 0.005430566330488751,
      "grad_norm": 26.026487350463867,
      "learning_rate": 2.4676850763807285e-07,
      "loss": 7.43,
      "step": 7
    },
    {
      "epoch": 0.0062063615205585725,
      "grad_norm": Infinity,
      "learning_rate": 2.4676850763807285e-07,
      "loss": 9.8237,
      "step": 8
    },
    {
      "epoch": 0.0069821567106283944,
      "grad_norm": 12.019311904907227,
      "learning_rate": 2.878965922444183e-07,
      "loss": 5.4554,
      "step": 9
    },
    {
      "epoch": 0.007757951900698216,
      "grad_norm": 19.58979606628418,
      "learning_rate": 3.2902467685076374e-07,
      "loss": 6.6825,
      "step": 10
    },
    {
      "epoch": 0.008533747090768037,
      "grad_norm": 11.048348426818848,
      "learning_rate": 3.701527614571093e-07,
      "loss": 5.6752,
      "step": 11
    },
    {
      "epoch": 0.009309542280837859,
      "grad_norm": 10.552579879760742,
      "learning_rate": 4.1128084606345474e-07,
      "loss": 4.8126,
      "step": 12
    },
    {
      "epoch": 0.01008533747090768,
      "grad_norm": 10.90353775024414,
      "learning_rate": 4.524089306698002e-07,
      "loss": 4.7993,
      "step": 13
    },
    {
      "epoch": 0.010861132660977503,
      "grad_norm": 14.389288902282715,
      "learning_rate": 4.935370152761457e-07,
      "loss": 6.2433,
      "step": 14
    },
    {
      "epoch": 0.011636927851047323,
      "grad_norm": 32.469276428222656,
      "learning_rate": 5.346650998824911e-07,
      "loss": 7.8983,
      "step": 15
    },
    {
      "epoch": 0.012412723041117145,
      "grad_norm": 17.988374710083008,
      "learning_rate": 5.757931844888366e-07,
      "loss": 5.9294,
      "step": 16
    },
    {
      "epoch": 0.013188518231186967,
      "grad_norm": 53.49104309082031,
      "learning_rate": 6.169212690951821e-07,
      "loss": 10.0069,
      "step": 17
    },
    {
      "epoch": 0.013964313421256789,
      "grad_norm": 51.57087707519531,
      "learning_rate": 6.580493537015275e-07,
      "loss": 9.761,
      "step": 18
    },
    {
      "epoch": 0.01474010861132661,
      "grad_norm": 10.312777519226074,
      "learning_rate": 6.99177438307873e-07,
      "loss": 4.7492,
      "step": 19
    },
    {
      "epoch": 0.015515903801396431,
      "grad_norm": 24.298805236816406,
      "learning_rate": 7.403055229142186e-07,
      "loss": 7.0924,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_Qnli-dev_cosine_accuracy": 0.58984375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9331285953521729,
      "eval_Qnli-dev_cosine_ap": 0.5485925209297758,
      "eval_Qnli-dev_cosine_f1": 0.6291834002677376,
      "eval_Qnli-dev_cosine_f1_threshold": 0.6565657258033752,
      "eval_Qnli-dev_cosine_precision": 0.4598825831702544,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.541015625,
      "eval_Qnli-dev_dot_accuracy_threshold": 1048.2359619140625,
      "eval_Qnli-dev_dot_ap": 0.4748490344531905,
      "eval_Qnli-dev_dot_f1": 0.6300268096514745,
      "eval_Qnli-dev_dot_f1_threshold": 380.322998046875,
      "eval_Qnli-dev_dot_precision": 0.46078431372549017,
      "eval_Qnli-dev_dot_recall": 0.9957627118644068,
      "eval_Qnli-dev_euclidean_accuracy": 0.587890625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 9.073010444641113,
      "eval_Qnli-dev_euclidean_ap": 0.5650640204703478,
      "eval_Qnli-dev_euclidean_f1": 0.6332882273342355,
      "eval_Qnli-dev_euclidean_f1_threshold": 18.225353240966797,
      "eval_Qnli-dev_euclidean_precision": 0.46520874751491054,
      "eval_Qnli-dev_euclidean_recall": 0.9915254237288136,
      "eval_Qnli-dev_manhattan_accuracy": 0.6171875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 155.41647338867188,
      "eval_Qnli-dev_manhattan_ap": 0.6018518855824669,
      "eval_Qnli-dev_manhattan_f1": 0.6291834002677376,
      "eval_Qnli-dev_manhattan_f1_threshold": 286.5093994140625,
      "eval_Qnli-dev_manhattan_precision": 0.4598825831702544,
      "eval_Qnli-dev_manhattan_recall": 0.9957627118644068,
      "eval_Qnli-dev_max_accuracy": 0.6171875,
      "eval_Qnli-dev_max_accuracy_threshold": 1048.2359619140625,
      "eval_Qnli-dev_max_ap": 0.6018518855824669,
      "eval_Qnli-dev_max_f1": 0.6332882273342355,
      "eval_Qnli-dev_max_f1_threshold": 380.322998046875,
      "eval_Qnli-dev_max_precision": 0.46520874751491054,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.666015625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9902692437171936,
      "eval_allNLI-dev_cosine_ap": 0.36630271296437167,
      "eval_allNLI-dev_cosine_f1": 0.5088235294117648,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7946319580078125,
      "eval_allNLI-dev_cosine_precision": 0.34122287968441817,
      "eval_allNLI-dev_cosine_recall": 1.0,
      "eval_allNLI-dev_dot_accuracy": 0.662109375,
      "eval_allNLI-dev_dot_accuracy_threshold": 940.7398681640625,
      "eval_allNLI-dev_dot_ap": 0.33409368825504626,
      "eval_allNLI-dev_dot_f1": 0.5081240768094535,
      "eval_allNLI-dev_dot_f1_threshold": 585.4312744140625,
      "eval_allNLI-dev_dot_precision": 0.3412698412698413,
      "eval_allNLI-dev_dot_recall": 0.9942196531791907,
      "eval_allNLI-dev_euclidean_accuracy": 0.666015625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 5.293120384216309,
      "eval_allNLI-dev_euclidean_ap": 0.36165210170894113,
      "eval_allNLI-dev_euclidean_f1": 0.5111441307578009,
      "eval_allNLI-dev_euclidean_f1_threshold": 16.931983947753906,
      "eval_allNLI-dev_euclidean_precision": 0.344,
      "eval_allNLI-dev_euclidean_recall": 0.9942196531791907,
      "eval_allNLI-dev_manhattan_accuracy": 0.666015625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 74.05484008789062,
      "eval_allNLI-dev_manhattan_ap": 0.37228608061825896,
      "eval_allNLI-dev_manhattan_f1": 0.5081240768094535,
      "eval_allNLI-dev_manhattan_f1_threshold": 240.91050720214844,
      "eval_allNLI-dev_manhattan_precision": 0.3412698412698413,
      "eval_allNLI-dev_manhattan_recall": 0.9942196531791907,
      "eval_allNLI-dev_max_accuracy": 0.666015625,
      "eval_allNLI-dev_max_accuracy_threshold": 940.7398681640625,
      "eval_allNLI-dev_max_ap": 0.37228608061825896,
      "eval_allNLI-dev_max_f1": 0.5111441307578009,
      "eval_allNLI-dev_max_f1_threshold": 585.4312744140625,
      "eval_allNLI-dev_max_precision": 0.344,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6018518855824669,
      "eval_sts-test_pearson_cosine": 0.14468011325378688,
      "eval_sts-test_pearson_dot": 0.12373166012012136,
      "eval_sts-test_pearson_euclidean": 0.15040853567589774,
      "eval_sts-test_pearson_manhattan": 0.14680735741048356,
      "eval_sts-test_pearson_max": 0.15040853567589774,
      "eval_sts-test_spearman_cosine": 0.1980088477205014,
      "eval_sts-test_spearman_dot": 0.12132071438334546,
      "eval_sts-test_spearman_euclidean": 0.17802306863688658,
      "eval_sts-test_spearman_manhattan": 0.17413140944376768,
      "eval_sts-test_spearman_max": 0.1980088477205014,
      "eval_vitaminc-pairs_loss": 4.239284515380859,
      "eval_vitaminc-pairs_runtime": 5.4781,
      "eval_vitaminc-pairs_samples_per_second": 23.366,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_negation-triplets_loss": 5.499993801116943,
      "eval_negation-triplets_runtime": 1.0772,
      "eval_negation-triplets_samples_per_second": 118.828,
      "eval_negation-triplets_steps_per_second": 1.857,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_scitail-pairs-pos_loss": 2.806995391845703,
      "eval_scitail-pairs-pos_runtime": 1.221,
      "eval_scitail-pairs-pos_samples_per_second": 104.828,
      "eval_scitail-pairs-pos_steps_per_second": 1.638,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_scitail-pairs-qa_loss": 4.214225769042969,
      "eval_scitail-pairs-qa_runtime": 0.7726,
      "eval_scitail-pairs-qa_samples_per_second": 165.67,
      "eval_scitail-pairs-qa_steps_per_second": 2.589,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_xsum-pairs_loss": 5.982180118560791,
      "eval_xsum-pairs_runtime": 3.9493,
      "eval_xsum-pairs_samples_per_second": 32.411,
      "eval_xsum-pairs_steps_per_second": 0.506,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_sciq_pairs_loss": 0.733872652053833,
      "eval_sciq_pairs_runtime": 5.8101,
      "eval_sciq_pairs_samples_per_second": 22.031,
      "eval_sciq_pairs_steps_per_second": 0.344,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_qasc_pairs_loss": 8.005105018615723,
      "eval_qasc_pairs_runtime": 0.89,
      "eval_qasc_pairs_samples_per_second": 143.822,
      "eval_qasc_pairs_steps_per_second": 2.247,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_openbookqa_pairs_loss": 5.631566047668457,
      "eval_openbookqa_pairs_runtime": 0.861,
      "eval_openbookqa_pairs_samples_per_second": 148.656,
      "eval_openbookqa_pairs_steps_per_second": 2.323,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_msmarco_pairs_loss": 10.92141342163086,
      "eval_msmarco_pairs_runtime": 1.9495,
      "eval_msmarco_pairs_samples_per_second": 65.659,
      "eval_msmarco_pairs_steps_per_second": 1.026,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_nq_pairs_loss": 9.838966369628906,
      "eval_nq_pairs_runtime": 3.3145,
      "eval_nq_pairs_samples_per_second": 38.618,
      "eval_nq_pairs_steps_per_second": 0.603,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_trivia_pairs_loss": 7.321401596069336,
      "eval_trivia_pairs_runtime": 4.4673,
      "eval_trivia_pairs_samples_per_second": 28.653,
      "eval_trivia_pairs_steps_per_second": 0.448,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_gooaq_pairs_loss": 7.844480037689209,
      "eval_gooaq_pairs_runtime": 1.4628,
      "eval_gooaq_pairs_samples_per_second": 87.505,
      "eval_gooaq_pairs_steps_per_second": 1.367,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_paws-pos_loss": 2.474581718444824,
      "eval_paws-pos_runtime": 1.0227,
      "eval_paws-pos_samples_per_second": 125.159,
      "eval_paws-pos_steps_per_second": 1.956,
      "step": 20
    },
    {
      "epoch": 0.015515903801396431,
      "eval_global_dataset_loss": 5.820813179016113,
      "eval_global_dataset_runtime": 19.3774,
      "eval_global_dataset_samples_per_second": 21.468,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 20
    },
    {
      "epoch": 0.016291698991466253,
      "grad_norm": 16.32306671142578,
      "learning_rate": 7.81433607520564e-07,
      "loss": 6.3011,
      "step": 21
    },
    {
      "epoch": 0.017067494181536073,
      "grad_norm": 10.361891746520996,
      "learning_rate": 8.225616921269095e-07,
      "loss": 5.6518,
      "step": 22
    },
    {
      "epoch": 0.017843289371605897,
      "grad_norm": 18.645973205566406,
      "learning_rate": 8.636897767332549e-07,
      "loss": 6.5445,
      "step": 23
    },
    {
      "epoch": 0.018619084561675717,
      "grad_norm": 14.296663284301758,
      "learning_rate": 9.048178613396004e-07,
      "loss": 6.0762,
      "step": 24
    },
    {
      "epoch": 0.019394879751745538,
      "grad_norm": 12.288186073303223,
      "learning_rate": 9.459459459459459e-07,
      "loss": 4.9043,
      "step": 25
    },
    {
      "epoch": 0.02017067494181536,
      "grad_norm": 48.58110046386719,
      "learning_rate": 9.870740305522914e-07,
      "loss": 10.3442,
      "step": 26
    },
    {
      "epoch": 0.02094647013188518,
      "grad_norm": 17.945547103881836,
      "learning_rate": 1.0282021151586369e-06,
      "loss": 6.3305,
      "step": 27
    },
    {
      "epoch": 0.021722265321955005,
      "grad_norm": 16.731460571289062,
      "learning_rate": 1.0693301997649822e-06,
      "loss": 6.3366,
      "step": 28
    },
    {
      "epoch": 0.022498060512024826,
      "grad_norm": 10.825992584228516,
      "learning_rate": 1.1104582843713277e-06,
      "loss": 5.6012,
      "step": 29
    },
    {
      "epoch": 0.023273855702094646,
      "grad_norm": 13.152975082397461,
      "learning_rate": 1.1515863689776732e-06,
      "loss": 5.9001,
      "step": 30
    },
    {
      "epoch": 0.02404965089216447,
      "grad_norm": 17.892440795898438,
      "learning_rate": 1.1927144535840187e-06,
      "loss": 6.3815,
      "step": 31
    },
    {
      "epoch": 0.02482544608223429,
      "grad_norm": 10.021342277526855,
      "learning_rate": 1.2338425381903642e-06,
      "loss": 4.8941,
      "step": 32
    },
    {
      "epoch": 0.02560124127230411,
      "grad_norm": 17.672340393066406,
      "learning_rate": 1.2749706227967097e-06,
      "loss": 6.2971,
      "step": 33
    },
    {
      "epoch": 0.026377036462373934,
      "grad_norm": 13.532915115356445,
      "learning_rate": 1.316098707403055e-06,
      "loss": 5.6313,
      "step": 34
    },
    {
      "epoch": 0.027152831652443754,
      "grad_norm": 13.363771438598633,
      "learning_rate": 1.3572267920094007e-06,
      "loss": 5.6635,
      "step": 35
    },
    {
      "epoch": 0.027928626842513578,
      "grad_norm": 11.951986312866211,
      "learning_rate": 1.398354876615746e-06,
      "loss": 6.0632,
      "step": 36
    },
    {
      "epoch": 0.028704422032583398,
      "grad_norm": 12.715692520141602,
      "learning_rate": 1.4394829612220915e-06,
      "loss": 6.0125,
      "step": 37
    },
    {
      "epoch": 0.02948021722265322,
      "grad_norm": 44.77717208862305,
      "learning_rate": 1.4806110458284372e-06,
      "loss": 7.9108,
      "step": 38
    },
    {
      "epoch": 0.030256012412723042,
      "grad_norm": 16.372045516967773,
      "learning_rate": 1.5217391304347825e-06,
      "loss": 6.3741,
      "step": 39
    },
    {
      "epoch": 0.031031807602792862,
      "grad_norm": 10.656290054321289,
      "learning_rate": 1.562867215041128e-06,
      "loss": 5.3981,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_Qnli-dev_cosine_accuracy": 0.6015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9430716633796692,
      "eval_Qnli-dev_cosine_ap": 0.5565875119399253,
      "eval_Qnli-dev_cosine_f1": 0.6291834002677376,
      "eval_Qnli-dev_cosine_f1_threshold": 0.6778229475021362,
      "eval_Qnli-dev_cosine_precision": 0.4598825831702544,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.548828125,
      "eval_Qnli-dev_dot_accuracy_threshold": 709.1221923828125,
      "eval_Qnli-dev_dot_ap": 0.47478000038083695,
      "eval_Qnli-dev_dot_f1": 0.6291834002677376,
      "eval_Qnli-dev_dot_f1_threshold": 357.37890625,
      "eval_Qnli-dev_dot_precision": 0.4598825831702544,
      "eval_Qnli-dev_dot_recall": 0.9957627118644068,
      "eval_Qnli-dev_euclidean_accuracy": 0.599609375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 8.403730392456055,
      "eval_Qnli-dev_euclidean_ap": 0.5735439175412295,
      "eval_Qnli-dev_euclidean_f1": 0.6324324324324324,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.377689361572266,
      "eval_Qnli-dev_euclidean_precision": 0.4642857142857143,
      "eval_Qnli-dev_euclidean_recall": 0.9915254237288136,
      "eval_Qnli-dev_manhattan_accuracy": 0.625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 152.123046875,
      "eval_Qnli-dev_manhattan_ap": 0.6110278070440811,
      "eval_Qnli-dev_manhattan_f1": 0.6291834002677376,
      "eval_Qnli-dev_manhattan_f1_threshold": 275.72344970703125,
      "eval_Qnli-dev_manhattan_precision": 0.4598825831702544,
      "eval_Qnli-dev_manhattan_recall": 0.9957627118644068,
      "eval_Qnli-dev_max_accuracy": 0.625,
      "eval_Qnli-dev_max_accuracy_threshold": 709.1221923828125,
      "eval_Qnli-dev_max_ap": 0.6110278070440811,
      "eval_Qnli-dev_max_f1": 0.6324324324324324,
      "eval_Qnli-dev_max_f1_threshold": 357.37890625,
      "eval_Qnli-dev_max_precision": 0.4642857142857143,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.666015625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9908591508865356,
      "eval_allNLI-dev_cosine_ap": 0.3677090943014154,
      "eval_allNLI-dev_cosine_f1": 0.5088235294117648,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8096739053726196,
      "eval_allNLI-dev_cosine_precision": 0.34122287968441817,
      "eval_allNLI-dev_cosine_recall": 1.0,
      "eval_allNLI-dev_dot_accuracy": 0.66015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 1065.9342041015625,
      "eval_allNLI-dev_dot_ap": 0.33310258182405583,
      "eval_allNLI-dev_dot_f1": 0.5081240768094535,
      "eval_allNLI-dev_dot_f1_threshold": 600.9107666015625,
      "eval_allNLI-dev_dot_precision": 0.3412698412698413,
      "eval_allNLI-dev_dot_recall": 0.9942196531791907,
      "eval_allNLI-dev_euclidean_accuracy": 0.666015625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 5.249004364013672,
      "eval_allNLI-dev_euclidean_ap": 0.36405301502121135,
      "eval_allNLI-dev_euclidean_f1": 0.5103857566765578,
      "eval_allNLI-dev_euclidean_f1_threshold": 16.79437828063965,
      "eval_allNLI-dev_euclidean_precision": 0.34331337325349304,
      "eval_allNLI-dev_euclidean_recall": 0.9942196531791907,
      "eval_allNLI-dev_manhattan_accuracy": 0.666015625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 71.94633483886719,
      "eval_allNLI-dev_manhattan_ap": 0.3767657897123271,
      "eval_allNLI-dev_manhattan_f1": 0.5073746312684366,
      "eval_allNLI-dev_manhattan_f1_threshold": 236.0598602294922,
      "eval_allNLI-dev_manhattan_precision": 0.3405940594059406,
      "eval_allNLI-dev_manhattan_recall": 0.9942196531791907,
      "eval_allNLI-dev_max_accuracy": 0.666015625,
      "eval_allNLI-dev_max_accuracy_threshold": 1065.9342041015625,
      "eval_allNLI-dev_max_ap": 0.3767657897123271,
      "eval_allNLI-dev_max_f1": 0.5103857566765578,
      "eval_allNLI-dev_max_f1_threshold": 600.9107666015625,
      "eval_allNLI-dev_max_precision": 0.34331337325349304,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6110278070440811,
      "eval_sts-test_pearson_cosine": 0.14752508082997276,
      "eval_sts-test_pearson_dot": 0.13488717804142986,
      "eval_sts-test_pearson_euclidean": 0.15185506014664446,
      "eval_sts-test_pearson_manhattan": 0.14687917919770682,
      "eval_sts-test_pearson_max": 0.15185506014664446,
      "eval_sts-test_spearman_cosine": 0.20049724161017018,
      "eval_sts-test_spearman_dot": 0.1353592298330889,
      "eval_sts-test_spearman_euclidean": 0.17951910330520107,
      "eval_sts-test_spearman_manhattan": 0.17376785019622396,
      "eval_sts-test_spearman_max": 0.20049724161017018,
      "eval_vitaminc-pairs_loss": 4.123702049255371,
      "eval_vitaminc-pairs_runtime": 5.4736,
      "eval_vitaminc-pairs_samples_per_second": 23.385,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_negation-triplets_loss": 5.45994758605957,
      "eval_negation-triplets_runtime": 1.0747,
      "eval_negation-triplets_samples_per_second": 119.102,
      "eval_negation-triplets_steps_per_second": 1.861,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_scitail-pairs-pos_loss": 2.758348226547241,
      "eval_scitail-pairs-pos_runtime": 1.2143,
      "eval_scitail-pairs-pos_samples_per_second": 105.41,
      "eval_scitail-pairs-pos_steps_per_second": 1.647,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_scitail-pairs-qa_loss": 4.180817127227783,
      "eval_scitail-pairs-qa_runtime": 0.766,
      "eval_scitail-pairs-qa_samples_per_second": 167.105,
      "eval_scitail-pairs-qa_steps_per_second": 2.611,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_xsum-pairs_loss": 5.874823093414307,
      "eval_xsum-pairs_runtime": 3.924,
      "eval_xsum-pairs_samples_per_second": 32.62,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_sciq_pairs_loss": 0.6976423859596252,
      "eval_sciq_pairs_runtime": 5.8211,
      "eval_sciq_pairs_samples_per_second": 21.989,
      "eval_sciq_pairs_steps_per_second": 0.344,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_qasc_pairs_loss": 7.423002243041992,
      "eval_qasc_pairs_runtime": 0.9034,
      "eval_qasc_pairs_samples_per_second": 141.693,
      "eval_qasc_pairs_steps_per_second": 2.214,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_openbookqa_pairs_loss": 5.564730644226074,
      "eval_openbookqa_pairs_runtime": 0.8569,
      "eval_openbookqa_pairs_samples_per_second": 149.376,
      "eval_openbookqa_pairs_steps_per_second": 2.334,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_msmarco_pairs_loss": 10.023717880249023,
      "eval_msmarco_pairs_runtime": 1.9602,
      "eval_msmarco_pairs_samples_per_second": 65.298,
      "eval_msmarco_pairs_steps_per_second": 1.02,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_nq_pairs_loss": 8.906123161315918,
      "eval_nq_pairs_runtime": 3.3287,
      "eval_nq_pairs_samples_per_second": 38.453,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_trivia_pairs_loss": 6.981179714202881,
      "eval_trivia_pairs_runtime": 4.4701,
      "eval_trivia_pairs_samples_per_second": 28.635,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_gooaq_pairs_loss": 7.387185096740723,
      "eval_gooaq_pairs_runtime": 1.453,
      "eval_gooaq_pairs_samples_per_second": 88.091,
      "eval_gooaq_pairs_steps_per_second": 1.376,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_paws-pos_loss": 2.5774118900299072,
      "eval_paws-pos_runtime": 1.0228,
      "eval_paws-pos_samples_per_second": 125.149,
      "eval_paws-pos_steps_per_second": 1.955,
      "step": 40
    },
    {
      "epoch": 0.031031807602792862,
      "eval_global_dataset_loss": 5.574436187744141,
      "eval_global_dataset_runtime": 19.3888,
      "eval_global_dataset_samples_per_second": 21.456,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 40
    },
    {
      "epoch": 0.03180760279286268,
      "grad_norm": 10.962615966796875,
      "learning_rate": 1.6039952996474733e-06,
      "loss": 5.3344,
      "step": 41
    },
    {
      "epoch": 0.032583397982932506,
      "grad_norm": 14.594836235046387,
      "learning_rate": 1.645123384253819e-06,
      "loss": 6.1365,
      "step": 42
    },
    {
      "epoch": 0.03335919317300233,
      "grad_norm": 11.795042037963867,
      "learning_rate": 1.6862514688601645e-06,
      "loss": 5.818,
      "step": 43
    },
    {
      "epoch": 0.03413498836307215,
      "grad_norm": 12.332319259643555,
      "learning_rate": 1.7273795534665098e-06,
      "loss": 5.8133,
      "step": 44
    },
    {
      "epoch": 0.03491078355314197,
      "grad_norm": 14.156538963317871,
      "learning_rate": 1.7685076380728553e-06,
      "loss": 5.9534,
      "step": 45
    },
    {
      "epoch": 0.035686578743211794,
      "grad_norm": 11.36040210723877,
      "learning_rate": 1.8096357226792008e-06,
      "loss": 5.6302,
      "step": 46
    },
    {
      "epoch": 0.03646237393328161,
      "grad_norm": 12.837271690368652,
      "learning_rate": 1.8507638072855463e-06,
      "loss": 5.9389,
      "step": 47
    },
    {
      "epoch": 0.037238169123351435,
      "grad_norm": 13.556758880615234,
      "learning_rate": 1.8918918918918918e-06,
      "loss": 5.7893,
      "step": 48
    },
    {
      "epoch": 0.03801396431342126,
      "grad_norm": 9.904508590698242,
      "learning_rate": 1.933019976498237e-06,
      "loss": 4.725,
      "step": 49
    },
    {
      "epoch": 0.038789759503491075,
      "grad_norm": 13.982979774475098,
      "learning_rate": 1.9741480611045828e-06,
      "loss": 6.1877,
      "step": 50
    },
    {
      "epoch": 0.0395655546935609,
      "grad_norm": 13.776800155639648,
      "learning_rate": 2.015276145710928e-06,
      "loss": 6.001,
      "step": 51
    },
    {
      "epoch": 0.04034134988363072,
      "grad_norm": 21.959096908569336,
      "learning_rate": 2.0564042303172738e-06,
      "loss": 7.0504,
      "step": 52
    },
    {
      "epoch": 0.041117145073700546,
      "grad_norm": 14.812617301940918,
      "learning_rate": 2.097532314923619e-06,
      "loss": 5.7706,
      "step": 53
    },
    {
      "epoch": 0.04189294026377036,
      "grad_norm": 13.54603099822998,
      "learning_rate": 2.1386603995299644e-06,
      "loss": 6.3886,
      "step": 54
    },
    {
      "epoch": 0.04266873545384019,
      "grad_norm": 11.500264167785645,
      "learning_rate": 2.17978848413631e-06,
      "loss": 6.0503,
      "step": 55
    },
    {
      "epoch": 0.04344453064391001,
      "grad_norm": 7.893326759338379,
      "learning_rate": 2.2209165687426554e-06,
      "loss": 5.9136,
      "step": 56
    },
    {
      "epoch": 0.04422032583397983,
      "grad_norm": 9.733207702636719,
      "learning_rate": 2.2620446533490006e-06,
      "loss": 5.6769,
      "step": 57
    },
    {
      "epoch": 0.04499612102404965,
      "grad_norm": 12.644614219665527,
      "learning_rate": 2.3031727379553464e-06,
      "loss": 5.6418,
      "step": 58
    },
    {
      "epoch": 0.045771916214119475,
      "grad_norm": 8.392154693603516,
      "learning_rate": 2.344300822561692e-06,
      "loss": 5.3225,
      "step": 59
    },
    {
      "epoch": 0.04654771140418929,
      "grad_norm": 6.115021228790283,
      "learning_rate": 2.3854289071680374e-06,
      "loss": 5.2977,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_Qnli-dev_cosine_accuracy": 0.59765625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9555542469024658,
      "eval_Qnli-dev_cosine_ap": 0.5645675307780116,
      "eval_Qnli-dev_cosine_f1": 0.6291834002677376,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7179017066955566,
      "eval_Qnli-dev_cosine_precision": 0.4598825831702544,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.55078125,
      "eval_Qnli-dev_dot_accuracy_threshold": 727.389404296875,
      "eval_Qnli-dev_dot_ap": 0.47243395169886154,
      "eval_Qnli-dev_dot_f1": 0.629878869448183,
      "eval_Qnli-dev_dot_f1_threshold": 461.4835205078125,
      "eval_Qnli-dev_dot_precision": 0.46153846153846156,
      "eval_Qnli-dev_dot_recall": 0.9915254237288136,
      "eval_Qnli-dev_euclidean_accuracy": 0.599609375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 8.283002853393555,
      "eval_Qnli-dev_euclidean_ap": 0.5826604533188524,
      "eval_Qnli-dev_euclidean_f1": 0.6314363143631436,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.081790924072266,
      "eval_Qnli-dev_euclidean_precision": 0.4641434262948207,
      "eval_Qnli-dev_euclidean_recall": 0.9872881355932204,
      "eval_Qnli-dev_manhattan_accuracy": 0.630859375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 146.17575073242188,
      "eval_Qnli-dev_manhattan_ap": 0.6168306227629134,
      "eval_Qnli-dev_manhattan_f1": 0.6296296296296297,
      "eval_Qnli-dev_manhattan_f1_threshold": 204.5635528564453,
      "eval_Qnli-dev_manhattan_precision": 0.4742489270386266,
      "eval_Qnli-dev_manhattan_recall": 0.9364406779661016,
      "eval_Qnli-dev_max_accuracy": 0.630859375,
      "eval_Qnli-dev_max_accuracy_threshold": 727.389404296875,
      "eval_Qnli-dev_max_ap": 0.6168306227629134,
      "eval_Qnli-dev_max_f1": 0.6314363143631436,
      "eval_Qnli-dev_max_f1_threshold": 461.4835205078125,
      "eval_Qnli-dev_max_precision": 0.4742489270386266,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.666015625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9849413633346558,
      "eval_allNLI-dev_cosine_ap": 0.37307202329042877,
      "eval_allNLI-dev_cosine_f1": 0.5104477611940298,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8623183965682983,
      "eval_allNLI-dev_cosine_precision": 0.3440643863179074,
      "eval_allNLI-dev_cosine_recall": 0.9884393063583815,
      "eval_allNLI-dev_dot_accuracy": 0.66015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 1062.3370361328125,
      "eval_allNLI-dev_dot_ap": 0.3297699984610426,
      "eval_allNLI-dev_dot_f1": 0.5088757396449705,
      "eval_allNLI-dev_dot_f1_threshold": 622.9761962890625,
      "eval_allNLI-dev_dot_precision": 0.341948310139165,
      "eval_allNLI-dev_dot_recall": 0.9942196531791907,
      "eval_allNLI-dev_euclidean_accuracy": 0.666015625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 5.127579689025879,
      "eval_allNLI-dev_euclidean_ap": 0.36909730374104466,
      "eval_allNLI-dev_euclidean_f1": 0.5113464447806354,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.735725402832031,
      "eval_allNLI-dev_euclidean_precision": 0.3463114754098361,
      "eval_allNLI-dev_euclidean_recall": 0.976878612716763,
      "eval_allNLI-dev_manhattan_accuracy": 0.6640625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 54.84022521972656,
      "eval_allNLI-dev_manhattan_ap": 0.3817636902039587,
      "eval_allNLI-dev_manhattan_f1": 0.5103857566765578,
      "eval_allNLI-dev_manhattan_f1_threshold": 225.62132263183594,
      "eval_allNLI-dev_manhattan_precision": 0.34331337325349304,
      "eval_allNLI-dev_manhattan_recall": 0.9942196531791907,
      "eval_allNLI-dev_max_accuracy": 0.666015625,
      "eval_allNLI-dev_max_accuracy_threshold": 1062.3370361328125,
      "eval_allNLI-dev_max_ap": 0.3817636902039587,
      "eval_allNLI-dev_max_f1": 0.5113464447806354,
      "eval_allNLI-dev_max_f1_threshold": 622.9761962890625,
      "eval_allNLI-dev_max_precision": 0.3463114754098361,
      "eval_allNLI-dev_max_recall": 0.9942196531791907,
      "eval_sequential_score": 0.6168306227629134,
      "eval_sts-test_pearson_cosine": 0.15615571514608637,
      "eval_sts-test_pearson_dot": 0.1565591340193878,
      "eval_sts-test_pearson_euclidean": 0.15789005051166094,
      "eval_sts-test_pearson_manhattan": 0.15049180567530787,
      "eval_sts-test_pearson_max": 0.15789005051166094,
      "eval_sts-test_spearman_cosine": 0.21185036811759986,
      "eval_sts-test_spearman_dot": 0.15568507375201698,
      "eval_sts-test_spearman_euclidean": 0.1835967487406626,
      "eval_sts-test_spearman_manhattan": 0.17528196437414056,
      "eval_sts-test_spearman_max": 0.21185036811759986,
      "eval_vitaminc-pairs_loss": 3.992605209350586,
      "eval_vitaminc-pairs_runtime": 5.4384,
      "eval_vitaminc-pairs_samples_per_second": 23.536,
      "eval_vitaminc-pairs_steps_per_second": 0.368,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_negation-triplets_loss": 5.40188455581665,
      "eval_negation-triplets_runtime": 1.0636,
      "eval_negation-triplets_samples_per_second": 120.348,
      "eval_negation-triplets_steps_per_second": 1.88,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_scitail-pairs-pos_loss": 2.6962366104125977,
      "eval_scitail-pairs-pos_runtime": 1.1899,
      "eval_scitail-pairs-pos_samples_per_second": 107.569,
      "eval_scitail-pairs-pos_steps_per_second": 1.681,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_scitail-pairs-qa_loss": 4.189697742462158,
      "eval_scitail-pairs-qa_runtime": 0.7567,
      "eval_scitail-pairs-qa_samples_per_second": 169.153,
      "eval_scitail-pairs-qa_steps_per_second": 2.643,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_xsum-pairs_loss": 5.7225446701049805,
      "eval_xsum-pairs_runtime": 3.9013,
      "eval_xsum-pairs_samples_per_second": 32.809,
      "eval_xsum-pairs_steps_per_second": 0.513,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_sciq_pairs_loss": 0.6581735610961914,
      "eval_sciq_pairs_runtime": 5.7872,
      "eval_sciq_pairs_samples_per_second": 22.118,
      "eval_sciq_pairs_steps_per_second": 0.346,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_qasc_pairs_loss": 6.56049919128418,
      "eval_qasc_pairs_runtime": 0.8954,
      "eval_qasc_pairs_samples_per_second": 142.954,
      "eval_qasc_pairs_steps_per_second": 2.234,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_openbookqa_pairs_loss": 5.458502292633057,
      "eval_openbookqa_pairs_runtime": 0.8618,
      "eval_openbookqa_pairs_samples_per_second": 148.532,
      "eval_openbookqa_pairs_steps_per_second": 2.321,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_msmarco_pairs_loss": 8.660462379455566,
      "eval_msmarco_pairs_runtime": 1.9838,
      "eval_msmarco_pairs_samples_per_second": 64.521,
      "eval_msmarco_pairs_steps_per_second": 1.008,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_nq_pairs_loss": 7.642305850982666,
      "eval_nq_pairs_runtime": 3.3253,
      "eval_nq_pairs_samples_per_second": 38.492,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_trivia_pairs_loss": 6.512197494506836,
      "eval_trivia_pairs_runtime": 4.4671,
      "eval_trivia_pairs_samples_per_second": 28.654,
      "eval_trivia_pairs_steps_per_second": 0.448,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_gooaq_pairs_loss": 6.7339911460876465,
      "eval_gooaq_pairs_runtime": 1.4577,
      "eval_gooaq_pairs_samples_per_second": 87.81,
      "eval_gooaq_pairs_steps_per_second": 1.372,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_paws-pos_loss": 2.735227584838867,
      "eval_paws-pos_runtime": 1.0334,
      "eval_paws-pos_samples_per_second": 123.864,
      "eval_paws-pos_steps_per_second": 1.935,
      "step": 60
    },
    {
      "epoch": 0.04654771140418929,
      "eval_global_dataset_loss": 5.233480453491211,
      "eval_global_dataset_runtime": 19.3785,
      "eval_global_dataset_samples_per_second": 21.467,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 60
    },
    {
      "epoch": 0.047323506594259115,
      "grad_norm": 17.255535125732422,
      "learning_rate": 2.426556991774383e-06,
      "loss": 3.5938,
      "step": 61
    },
    {
      "epoch": 0.04809930178432894,
      "grad_norm": 8.553607940673828,
      "learning_rate": 2.4676850763807284e-06,
      "loss": 6.1306,
      "step": 62
    },
    {
      "epoch": 0.048875096974398756,
      "grad_norm": 29.715600967407227,
      "learning_rate": 2.5088131609870737e-06,
      "loss": 8.328,
      "step": 63
    },
    {
      "epoch": 0.04965089216446858,
      "grad_norm": 11.584660530090332,
      "learning_rate": 2.5499412455934194e-06,
      "loss": 6.0765,
      "step": 64
    },
    {
      "epoch": 0.0504266873545384,
      "grad_norm": 9.648879051208496,
      "learning_rate": 2.5910693301997647e-06,
      "loss": 4.808,
      "step": 65
    },
    {
      "epoch": 0.05120248254460822,
      "grad_norm": 10.802507400512695,
      "learning_rate": 2.63219741480611e-06,
      "loss": 5.9628,
      "step": 66
    },
    {
      "epoch": 0.051978277734678044,
      "grad_norm": 8.42625904083252,
      "learning_rate": 2.6733254994124557e-06,
      "loss": 5.197,
      "step": 67
    },
    {
      "epoch": 0.05275407292474787,
      "grad_norm": 18.369491577148438,
      "learning_rate": 2.7144535840188014e-06,
      "loss": 6.7851,
      "step": 68
    },
    {
      "epoch": 0.05352986811481769,
      "grad_norm": 16.186237335205078,
      "learning_rate": 2.7555816686251467e-06,
      "loss": 3.5248,
      "step": 69
    },
    {
      "epoch": 0.05430566330488751,
      "grad_norm": 25.963136672973633,
      "learning_rate": 2.796709753231492e-06,
      "loss": 7.614,
      "step": 70
    },
    {
      "epoch": 0.05508145849495733,
      "grad_norm": 10.458888053894043,
      "learning_rate": 2.8378378378378377e-06,
      "loss": 5.9919,
      "step": 71
    },
    {
      "epoch": 0.055857253685027156,
      "grad_norm": 22.169750213623047,
      "learning_rate": 2.878965922444183e-06,
      "loss": 6.5741,
      "step": 72
    },
    {
      "epoch": 0.05663304887509697,
      "grad_norm": 8.526782989501953,
      "learning_rate": 2.9200940070505282e-06,
      "loss": 5.5377,
      "step": 73
    },
    {
      "epoch": 0.057408844065166796,
      "grad_norm": 17.269418716430664,
      "learning_rate": 2.9612220916568744e-06,
      "loss": 6.6046,
      "step": 74
    },
    {
      "epoch": 0.05818463925523662,
      "grad_norm": 25.390901565551758,
      "learning_rate": 3.0023501762632197e-06,
      "loss": 6.6433,
      "step": 75
    },
    {
      "epoch": 0.05896043444530644,
      "grad_norm": 9.188263893127441,
      "learning_rate": 3.043478260869565e-06,
      "loss": 5.347,
      "step": 76
    },
    {
      "epoch": 0.05973622963537626,
      "grad_norm": 19.360456466674805,
      "learning_rate": 3.0846063454759102e-06,
      "loss": 6.3361,
      "step": 77
    },
    {
      "epoch": 0.060512024825446084,
      "grad_norm": 16.59157371520996,
      "learning_rate": 3.125734430082256e-06,
      "loss": 6.672,
      "step": 78
    },
    {
      "epoch": 0.0612878200155159,
      "grad_norm": 21.274341583251953,
      "learning_rate": 3.1668625146886012e-06,
      "loss": 7.2266,
      "step": 79
    },
    {
      "epoch": 0.062063615205585725,
      "grad_norm": 7.30432653427124,
      "learning_rate": 3.2079905992949465e-06,
      "loss": 5.2962,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_Qnli-dev_cosine_accuracy": 0.609375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9602965116500854,
      "eval_Qnli-dev_cosine_ap": 0.5666608532248261,
      "eval_Qnli-dev_cosine_f1": 0.6300268096514745,
      "eval_Qnli-dev_cosine_f1_threshold": 0.8070105314254761,
      "eval_Qnli-dev_cosine_precision": 0.46078431372549017,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.55078125,
      "eval_Qnli-dev_dot_accuracy_threshold": 752.1351318359375,
      "eval_Qnli-dev_dot_ap": 0.47532727039762024,
      "eval_Qnli-dev_dot_f1": 0.6307277628032345,
      "eval_Qnli-dev_dot_f1_threshold": 492.98980712890625,
      "eval_Qnli-dev_dot_precision": 0.4624505928853755,
      "eval_Qnli-dev_dot_recall": 0.9915254237288136,
      "eval_Qnli-dev_euclidean_accuracy": 0.609375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 7.72648811340332,
      "eval_Qnli-dev_euclidean_ap": 0.5815079822504383,
      "eval_Qnli-dev_euclidean_f1": 0.6300268096514745,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.727632522583008,
      "eval_Qnli-dev_euclidean_precision": 0.46078431372549017,
      "eval_Qnli-dev_euclidean_recall": 0.9957627118644068,
      "eval_Qnli-dev_manhattan_accuracy": 0.625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 138.83407592773438,
      "eval_Qnli-dev_manhattan_ap": 0.6149910998453122,
      "eval_Qnli-dev_manhattan_f1": 0.6338028169014084,
      "eval_Qnli-dev_manhattan_f1_threshold": 200.78419494628906,
      "eval_Qnli-dev_manhattan_precision": 0.47468354430379744,
      "eval_Qnli-dev_manhattan_recall": 0.9533898305084746,
      "eval_Qnli-dev_max_accuracy": 0.625,
      "eval_Qnli-dev_max_accuracy_threshold": 752.1351318359375,
      "eval_Qnli-dev_max_ap": 0.6149910998453122,
      "eval_Qnli-dev_max_f1": 0.6338028169014084,
      "eval_Qnli-dev_max_f1_threshold": 492.98980712890625,
      "eval_Qnli-dev_max_precision": 0.47468354430379744,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.66796875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9806065559387207,
      "eval_allNLI-dev_cosine_ap": 0.3777500660247708,
      "eval_allNLI-dev_cosine_f1": 0.5105105105105106,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8768577575683594,
      "eval_allNLI-dev_cosine_precision": 0.3448275862068966,
      "eval_allNLI-dev_cosine_recall": 0.9826589595375722,
      "eval_allNLI-dev_dot_accuracy": 0.66015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 1061.25537109375,
      "eval_allNLI-dev_dot_ap": 0.32808659027780296,
      "eval_allNLI-dev_dot_f1": 0.5103244837758112,
      "eval_allNLI-dev_dot_f1_threshold": 628.6370239257812,
      "eval_allNLI-dev_dot_precision": 0.3425742574257426,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.6640625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 2.8695411682128906,
      "eval_allNLI-dev_euclidean_ap": 0.3719354048335051,
      "eval_allNLI-dev_euclidean_f1": 0.5098634294385432,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.270792007446289,
      "eval_allNLI-dev_euclidean_precision": 0.345679012345679,
      "eval_allNLI-dev_euclidean_recall": 0.9710982658959537,
      "eval_allNLI-dev_manhattan_accuracy": 0.6640625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 52.462921142578125,
      "eval_allNLI-dev_manhattan_ap": 0.385436980166003,
      "eval_allNLI-dev_manhattan_f1": 0.5121212121212121,
      "eval_allNLI-dev_manhattan_f1_threshold": 210.9059295654297,
      "eval_allNLI-dev_manhattan_precision": 0.3470225872689938,
      "eval_allNLI-dev_manhattan_recall": 0.976878612716763,
      "eval_allNLI-dev_max_accuracy": 0.66796875,
      "eval_allNLI-dev_max_accuracy_threshold": 1061.25537109375,
      "eval_allNLI-dev_max_ap": 0.385436980166003,
      "eval_allNLI-dev_max_f1": 0.5121212121212121,
      "eval_allNLI-dev_max_f1_threshold": 628.6370239257812,
      "eval_allNLI-dev_max_precision": 0.3470225872689938,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6149910998453122,
      "eval_sts-test_pearson_cosine": 0.16481809744211354,
      "eval_sts-test_pearson_dot": 0.1687336929448065,
      "eval_sts-test_pearson_euclidean": 0.16621273435380343,
      "eval_sts-test_pearson_manhattan": 0.15708095069304162,
      "eval_sts-test_pearson_max": 0.1687336929448065,
      "eval_sts-test_spearman_cosine": 0.22067965773633885,
      "eval_sts-test_spearman_dot": 0.16797399388640222,
      "eval_sts-test_spearman_euclidean": 0.19304745437508256,
      "eval_sts-test_spearman_manhattan": 0.18393475501795184,
      "eval_sts-test_spearman_max": 0.22067965773633885,
      "eval_vitaminc-pairs_loss": 3.9390244483947754,
      "eval_vitaminc-pairs_runtime": 5.4765,
      "eval_vitaminc-pairs_samples_per_second": 23.373,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_negation-triplets_loss": 5.378707408905029,
      "eval_negation-triplets_runtime": 1.0807,
      "eval_negation-triplets_samples_per_second": 118.445,
      "eval_negation-triplets_steps_per_second": 1.851,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_scitail-pairs-pos_loss": 2.6731348037719727,
      "eval_scitail-pairs-pos_runtime": 1.2466,
      "eval_scitail-pairs-pos_samples_per_second": 102.681,
      "eval_scitail-pairs-pos_steps_per_second": 1.604,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_scitail-pairs-qa_loss": 4.19725227355957,
      "eval_scitail-pairs-qa_runtime": 0.7667,
      "eval_scitail-pairs-qa_samples_per_second": 166.945,
      "eval_scitail-pairs-qa_steps_per_second": 2.609,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_xsum-pairs_loss": 5.497353553771973,
      "eval_xsum-pairs_runtime": 3.9143,
      "eval_xsum-pairs_samples_per_second": 32.701,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_sciq_pairs_loss": 0.6366308927536011,
      "eval_sciq_pairs_runtime": 5.8407,
      "eval_sciq_pairs_samples_per_second": 21.915,
      "eval_sciq_pairs_steps_per_second": 0.342,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_qasc_pairs_loss": 5.937916278839111,
      "eval_qasc_pairs_runtime": 0.9043,
      "eval_qasc_pairs_samples_per_second": 141.552,
      "eval_qasc_pairs_steps_per_second": 2.212,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_openbookqa_pairs_loss": 5.383679389953613,
      "eval_openbookqa_pairs_runtime": 0.8569,
      "eval_openbookqa_pairs_samples_per_second": 149.38,
      "eval_openbookqa_pairs_steps_per_second": 2.334,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_msmarco_pairs_loss": 7.691795825958252,
      "eval_msmarco_pairs_runtime": 1.9631,
      "eval_msmarco_pairs_samples_per_second": 65.203,
      "eval_msmarco_pairs_steps_per_second": 1.019,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_nq_pairs_loss": 6.876422882080078,
      "eval_nq_pairs_runtime": 3.3205,
      "eval_nq_pairs_samples_per_second": 38.549,
      "eval_nq_pairs_steps_per_second": 0.602,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_trivia_pairs_loss": 6.1294965744018555,
      "eval_trivia_pairs_runtime": 4.4744,
      "eval_trivia_pairs_samples_per_second": 28.607,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_gooaq_pairs_loss": 6.205443859100342,
      "eval_gooaq_pairs_runtime": 1.4558,
      "eval_gooaq_pairs_samples_per_second": 87.923,
      "eval_gooaq_pairs_steps_per_second": 1.374,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_paws-pos_loss": 2.7808141708374023,
      "eval_paws-pos_runtime": 1.0141,
      "eval_paws-pos_samples_per_second": 126.225,
      "eval_paws-pos_steps_per_second": 1.972,
      "step": 80
    },
    {
      "epoch": 0.062063615205585725,
      "eval_global_dataset_loss": 5.0193328857421875,
      "eval_global_dataset_runtime": 19.3707,
      "eval_global_dataset_samples_per_second": 21.476,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 80
    },
    {
      "epoch": 0.06283941039565555,
      "grad_norm": 17.17608070373535,
      "learning_rate": 3.2491186839012927e-06,
      "loss": 6.1576,
      "step": 81
    },
    {
      "epoch": 0.06361520558572537,
      "grad_norm": 22.93490982055664,
      "learning_rate": 3.290246768507638e-06,
      "loss": 7.3243,
      "step": 82
    },
    {
      "epoch": 0.0643910007757952,
      "grad_norm": 7.930976867675781,
      "learning_rate": 3.3313748531139832e-06,
      "loss": 5.4146,
      "step": 83
    },
    {
      "epoch": 0.06516679596586501,
      "grad_norm": 9.221315383911133,
      "learning_rate": 3.372502937720329e-06,
      "loss": 5.8422,
      "step": 84
    },
    {
      "epoch": 0.06594259115593483,
      "grad_norm": 16.351512908935547,
      "learning_rate": 3.4136310223266742e-06,
      "loss": 3.7286,
      "step": 85
    },
    {
      "epoch": 0.06671838634600466,
      "grad_norm": 6.853544235229492,
      "learning_rate": 3.4547591069330195e-06,
      "loss": 5.478,
      "step": 86
    },
    {
      "epoch": 0.06749418153607448,
      "grad_norm": 7.5860700607299805,
      "learning_rate": 3.495887191539365e-06,
      "loss": 5.7321,
      "step": 87
    },
    {
      "epoch": 0.0682699767261443,
      "grad_norm": 16.70624351501465,
      "learning_rate": 3.5370152761457105e-06,
      "loss": 3.6133,
      "step": 88
    },
    {
      "epoch": 0.06904577191621412,
      "grad_norm": 20.827497482299805,
      "learning_rate": 3.5781433607520563e-06,
      "loss": 7.1329,
      "step": 89
    },
    {
      "epoch": 0.06982156710628394,
      "grad_norm": 22.313615798950195,
      "learning_rate": 3.6192714453584015e-06,
      "loss": 7.1766,
      "step": 90
    },
    {
      "epoch": 0.07059736229635376,
      "grad_norm": 12.5264892578125,
      "learning_rate": 3.6603995299647473e-06,
      "loss": 5.9805,
      "step": 91
    },
    {
      "epoch": 0.07137315748642359,
      "grad_norm": 5.0581955909729,
      "learning_rate": 3.7015276145710925e-06,
      "loss": 5.797,
      "step": 92
    },
    {
      "epoch": 0.0721489526764934,
      "grad_norm": 11.093539237976074,
      "learning_rate": 3.742655699177438e-06,
      "loss": 6.2104,
      "step": 93
    },
    {
      "epoch": 0.07292474786656322,
      "grad_norm": 18.35002326965332,
      "learning_rate": 3.7837837837837835e-06,
      "loss": 6.7904,
      "step": 94
    },
    {
      "epoch": 0.07370054305663305,
      "grad_norm": 4.62692928314209,
      "learning_rate": 3.824911868390129e-06,
      "loss": 5.6134,
      "step": 95
    },
    {
      "epoch": 0.07447633824670287,
      "grad_norm": 5.769094944000244,
      "learning_rate": 3.866039952996474e-06,
      "loss": 5.5922,
      "step": 96
    },
    {
      "epoch": 0.07525213343677269,
      "grad_norm": 6.5628461837768555,
      "learning_rate": 3.907168037602819e-06,
      "loss": 5.0351,
      "step": 97
    },
    {
      "epoch": 0.07602792862684252,
      "grad_norm": 18.365070343017578,
      "learning_rate": 3.9482961222091655e-06,
      "loss": 7.0271,
      "step": 98
    },
    {
      "epoch": 0.07680372381691233,
      "grad_norm": 12.308566093444824,
      "learning_rate": 3.989424206815511e-06,
      "loss": 6.2418,
      "step": 99
    },
    {
      "epoch": 0.07757951900698215,
      "grad_norm": 15.452849388122559,
      "learning_rate": 4.030552291421856e-06,
      "loss": 6.6114,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_Qnli-dev_cosine_accuracy": 0.6015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9667960405349731,
      "eval_Qnli-dev_cosine_ap": 0.5703877819293376,
      "eval_Qnli-dev_cosine_f1": 0.6317204301075269,
      "eval_Qnli-dev_cosine_f1_threshold": 0.8393322229385376,
      "eval_Qnli-dev_cosine_precision": 0.4625984251968504,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.546875,
      "eval_Qnli-dev_dot_accuracy_threshold": 798.5418701171875,
      "eval_Qnli-dev_dot_ap": 0.47597628614259624,
      "eval_Qnli-dev_dot_f1": 0.6307277628032345,
      "eval_Qnli-dev_dot_f1_threshold": 552.041015625,
      "eval_Qnli-dev_dot_precision": 0.4624505928853755,
      "eval_Qnli-dev_dot_recall": 0.9915254237288136,
      "eval_Qnli-dev_euclidean_accuracy": 0.603515625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 7.820992469787598,
      "eval_Qnli-dev_euclidean_ap": 0.5870442553034873,
      "eval_Qnli-dev_euclidean_f1": 0.6300268096514745,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.982101440429688,
      "eval_Qnli-dev_euclidean_precision": 0.46078431372549017,
      "eval_Qnli-dev_euclidean_recall": 0.9957627118644068,
      "eval_Qnli-dev_manhattan_accuracy": 0.62109375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 138.17556762695312,
      "eval_Qnli-dev_manhattan_ap": 0.613470320794373,
      "eval_Qnli-dev_manhattan_f1": 0.6304347826086957,
      "eval_Qnli-dev_manhattan_f1_threshold": 210.9376220703125,
      "eval_Qnli-dev_manhattan_precision": 0.464,
      "eval_Qnli-dev_manhattan_recall": 0.9830508474576272,
      "eval_Qnli-dev_max_accuracy": 0.62109375,
      "eval_Qnli-dev_max_accuracy_threshold": 798.5418701171875,
      "eval_Qnli-dev_max_ap": 0.613470320794373,
      "eval_Qnli-dev_max_f1": 0.6317204301075269,
      "eval_Qnli-dev_max_f1_threshold": 552.041015625,
      "eval_Qnli-dev_max_precision": 0.464,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.669921875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9819352626800537,
      "eval_allNLI-dev_cosine_ap": 0.3832808530001383,
      "eval_allNLI-dev_cosine_f1": 0.5082706766917294,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8935015201568604,
      "eval_allNLI-dev_cosine_precision": 0.3434959349593496,
      "eval_allNLI-dev_cosine_recall": 0.976878612716763,
      "eval_allNLI-dev_dot_accuracy": 0.66015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 1097.2392578125,
      "eval_allNLI-dev_dot_ap": 0.32480014044358735,
      "eval_allNLI-dev_dot_f1": 0.5095729013254787,
      "eval_allNLI-dev_dot_f1_threshold": 669.5403442382812,
      "eval_allNLI-dev_dot_precision": 0.34189723320158105,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.666015625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 5.188655376434326,
      "eval_allNLI-dev_euclidean_ap": 0.3752436345647485,
      "eval_allNLI-dev_euclidean_f1": 0.5112781954887218,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.686256408691406,
      "eval_allNLI-dev_euclidean_precision": 0.34552845528455284,
      "eval_allNLI-dev_euclidean_recall": 0.9826589595375722,
      "eval_allNLI-dev_manhattan_accuracy": 0.66796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 81.46263122558594,
      "eval_allNLI-dev_manhattan_ap": 0.39261471479691196,
      "eval_allNLI-dev_manhattan_f1": 0.513677811550152,
      "eval_allNLI-dev_manhattan_f1_threshold": 204.65167236328125,
      "eval_allNLI-dev_manhattan_precision": 0.34845360824742266,
      "eval_allNLI-dev_manhattan_recall": 0.976878612716763,
      "eval_allNLI-dev_max_accuracy": 0.669921875,
      "eval_allNLI-dev_max_accuracy_threshold": 1097.2392578125,
      "eval_allNLI-dev_max_ap": 0.39261471479691196,
      "eval_allNLI-dev_max_f1": 0.513677811550152,
      "eval_allNLI-dev_max_f1_threshold": 669.5403442382812,
      "eval_allNLI-dev_max_precision": 0.34845360824742266,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.613470320794373,
      "eval_sts-test_pearson_cosine": 0.1720525202149525,
      "eval_sts-test_pearson_dot": 0.17715667152519826,
      "eval_sts-test_pearson_euclidean": 0.17331039588378508,
      "eval_sts-test_pearson_manhattan": 0.16267378650643669,
      "eval_sts-test_pearson_max": 0.17715667152519826,
      "eval_sts-test_spearman_cosine": 0.2278064303667034,
      "eval_sts-test_spearman_dot": 0.17562364025486388,
      "eval_sts-test_spearman_euclidean": 0.19856242082391304,
      "eval_sts-test_spearman_manhattan": 0.1882869494420496,
      "eval_sts-test_spearman_max": 0.2278064303667034,
      "eval_vitaminc-pairs_loss": 3.920011281967163,
      "eval_vitaminc-pairs_runtime": 5.4953,
      "eval_vitaminc-pairs_samples_per_second": 23.293,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_negation-triplets_loss": 5.354557991027832,
      "eval_negation-triplets_runtime": 1.0836,
      "eval_negation-triplets_samples_per_second": 118.12,
      "eval_negation-triplets_steps_per_second": 1.846,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_scitail-pairs-pos_loss": 2.650925636291504,
      "eval_scitail-pairs-pos_runtime": 1.2361,
      "eval_scitail-pairs-pos_samples_per_second": 103.552,
      "eval_scitail-pairs-pos_steps_per_second": 1.618,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_scitail-pairs-qa_loss": 4.260052680969238,
      "eval_scitail-pairs-qa_runtime": 0.7647,
      "eval_scitail-pairs-qa_samples_per_second": 167.375,
      "eval_scitail-pairs-qa_steps_per_second": 2.615,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_xsum-pairs_loss": 5.345217227935791,
      "eval_xsum-pairs_runtime": 3.917,
      "eval_xsum-pairs_samples_per_second": 32.678,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_sciq_pairs_loss": 0.6231272220611572,
      "eval_sciq_pairs_runtime": 5.8736,
      "eval_sciq_pairs_samples_per_second": 21.793,
      "eval_sciq_pairs_steps_per_second": 0.341,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_qasc_pairs_loss": 5.399855136871338,
      "eval_qasc_pairs_runtime": 0.9118,
      "eval_qasc_pairs_samples_per_second": 140.388,
      "eval_qasc_pairs_steps_per_second": 2.194,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_openbookqa_pairs_loss": 5.2847161293029785,
      "eval_openbookqa_pairs_runtime": 0.8603,
      "eval_openbookqa_pairs_samples_per_second": 148.787,
      "eval_openbookqa_pairs_steps_per_second": 2.325,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_msmarco_pairs_loss": 6.665152072906494,
      "eval_msmarco_pairs_runtime": 1.9686,
      "eval_msmarco_pairs_samples_per_second": 65.021,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_nq_pairs_loss": 6.199686050415039,
      "eval_nq_pairs_runtime": 3.3173,
      "eval_nq_pairs_samples_per_second": 38.585,
      "eval_nq_pairs_steps_per_second": 0.603,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_trivia_pairs_loss": 5.7401909828186035,
      "eval_trivia_pairs_runtime": 4.4762,
      "eval_trivia_pairs_samples_per_second": 28.595,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_gooaq_pairs_loss": 5.792109489440918,
      "eval_gooaq_pairs_runtime": 1.4527,
      "eval_gooaq_pairs_samples_per_second": 88.113,
      "eval_gooaq_pairs_steps_per_second": 1.377,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_paws-pos_loss": 2.8563427925109863,
      "eval_paws-pos_runtime": 1.0232,
      "eval_paws-pos_samples_per_second": 125.099,
      "eval_paws-pos_steps_per_second": 1.955,
      "step": 100
    },
    {
      "epoch": 0.07757951900698215,
      "eval_global_dataset_loss": 4.84829568862915,
      "eval_global_dataset_runtime": 19.3977,
      "eval_global_dataset_samples_per_second": 21.446,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 100
    },
    {
      "epoch": 0.07835531419705198,
      "grad_norm": 7.275325298309326,
      "learning_rate": 4.071680376028202e-06,
      "loss": 5.3294,
      "step": 101
    },
    {
      "epoch": 0.0791311093871218,
      "grad_norm": 6.854203224182129,
      "learning_rate": 4.1128084606345476e-06,
      "loss": 5.0933,
      "step": 102
    },
    {
      "epoch": 0.07990690457719161,
      "grad_norm": 7.766842365264893,
      "learning_rate": 4.153936545240893e-06,
      "loss": 4.9333,
      "step": 103
    },
    {
      "epoch": 0.08068269976726145,
      "grad_norm": 7.3934478759765625,
      "learning_rate": 4.195064629847238e-06,
      "loss": 5.1327,
      "step": 104
    },
    {
      "epoch": 0.08145849495733126,
      "grad_norm": 4.127883434295654,
      "learning_rate": 4.236192714453583e-06,
      "loss": 5.5859,
      "step": 105
    },
    {
      "epoch": 0.08223429014740109,
      "grad_norm": 8.2522554397583,
      "learning_rate": 4.277320799059929e-06,
      "loss": 4.9192,
      "step": 106
    },
    {
      "epoch": 0.08301008533747091,
      "grad_norm": 16.312501907348633,
      "learning_rate": 4.318448883666274e-06,
      "loss": 3.8092,
      "step": 107
    },
    {
      "epoch": 0.08378588052754073,
      "grad_norm": 9.926016807556152,
      "learning_rate": 4.35957696827262e-06,
      "loss": 6.0247,
      "step": 108
    },
    {
      "epoch": 0.08456167571761056,
      "grad_norm": 7.373856544494629,
      "learning_rate": 4.400705052878966e-06,
      "loss": 5.6878,
      "step": 109
    },
    {
      "epoch": 0.08533747090768037,
      "grad_norm": 7.337434768676758,
      "learning_rate": 4.441833137485311e-06,
      "loss": 5.0953,
      "step": 110
    },
    {
      "epoch": 0.08611326609775019,
      "grad_norm": 12.865263938903809,
      "learning_rate": 4.482961222091657e-06,
      "loss": 6.3449,
      "step": 111
    },
    {
      "epoch": 0.08688906128782002,
      "grad_norm": 6.9256591796875,
      "learning_rate": 4.524089306698001e-06,
      "loss": 4.9109,
      "step": 112
    },
    {
      "epoch": 0.08766485647788984,
      "grad_norm": 4.341299057006836,
      "learning_rate": 4.5652173913043474e-06,
      "loss": 5.6,
      "step": 113
    },
    {
      "epoch": 0.08844065166795965,
      "grad_norm": 8.670815467834473,
      "learning_rate": 4.606345475910693e-06,
      "loss": 4.8765,
      "step": 114
    },
    {
      "epoch": 0.08921644685802949,
      "grad_norm": 10.17563247680664,
      "learning_rate": 4.647473560517038e-06,
      "loss": 5.7062,
      "step": 115
    },
    {
      "epoch": 0.0899922420480993,
      "grad_norm": 7.781512260437012,
      "learning_rate": 4.688601645123384e-06,
      "loss": 4.7221,
      "step": 116
    },
    {
      "epoch": 0.09076803723816912,
      "grad_norm": 8.361579895019531,
      "learning_rate": 4.7297297297297294e-06,
      "loss": 4.8871,
      "step": 117
    },
    {
      "epoch": 0.09154383242823895,
      "grad_norm": 9.360175132751465,
      "learning_rate": 4.770857814336075e-06,
      "loss": 4.7828,
      "step": 118
    },
    {
      "epoch": 0.09231962761830877,
      "grad_norm": 4.893143177032471,
      "learning_rate": 4.81198589894242e-06,
      "loss": 5.5502,
      "step": 119
    },
    {
      "epoch": 0.09309542280837858,
      "grad_norm": 9.300333976745605,
      "learning_rate": 4.853113983548766e-06,
      "loss": 4.6165,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_Qnli-dev_cosine_accuracy": 0.6015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9670753479003906,
      "eval_Qnli-dev_cosine_ap": 0.5722899415341274,
      "eval_Qnli-dev_cosine_f1": 0.6317204301075269,
      "eval_Qnli-dev_cosine_f1_threshold": 0.79914391040802,
      "eval_Qnli-dev_cosine_precision": 0.4625984251968504,
      "eval_Qnli-dev_cosine_recall": 0.9957627118644068,
      "eval_Qnli-dev_dot_accuracy": 0.548828125,
      "eval_Qnli-dev_dot_accuracy_threshold": 770.8974609375,
      "eval_Qnli-dev_dot_ap": 0.47908167649664435,
      "eval_Qnli-dev_dot_f1": 0.6317204301075269,
      "eval_Qnli-dev_dot_f1_threshold": 503.69384765625,
      "eval_Qnli-dev_dot_precision": 0.4625984251968504,
      "eval_Qnli-dev_dot_recall": 0.9957627118644068,
      "eval_Qnli-dev_euclidean_accuracy": 0.603515625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 8.770221710205078,
      "eval_Qnli-dev_euclidean_ap": 0.5921268027422615,
      "eval_Qnli-dev_euclidean_f1": 0.6308724832214765,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.821897506713867,
      "eval_Qnli-dev_euclidean_precision": 0.46168958742632615,
      "eval_Qnli-dev_euclidean_recall": 0.9957627118644068,
      "eval_Qnli-dev_manhattan_accuracy": 0.625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 144.48236083984375,
      "eval_Qnli-dev_manhattan_ap": 0.6088252763279582,
      "eval_Qnli-dev_manhattan_f1": 0.6329113924050632,
      "eval_Qnli-dev_manhattan_f1_threshold": 209.13174438476562,
      "eval_Qnli-dev_manhattan_precision": 0.47368421052631576,
      "eval_Qnli-dev_manhattan_recall": 0.9533898305084746,
      "eval_Qnli-dev_max_accuracy": 0.625,
      "eval_Qnli-dev_max_accuracy_threshold": 770.8974609375,
      "eval_Qnli-dev_max_ap": 0.6088252763279582,
      "eval_Qnli-dev_max_f1": 0.6329113924050632,
      "eval_Qnli-dev_max_f1_threshold": 503.69384765625,
      "eval_Qnli-dev_max_precision": 0.47368421052631576,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.6796875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9780304431915283,
      "eval_allNLI-dev_cosine_ap": 0.3992786539720722,
      "eval_allNLI-dev_cosine_f1": 0.5098634294385432,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8867166042327881,
      "eval_allNLI-dev_cosine_precision": 0.345679012345679,
      "eval_allNLI-dev_cosine_recall": 0.9710982658959537,
      "eval_allNLI-dev_dot_accuracy": 0.66015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 993.18896484375,
      "eval_allNLI-dev_dot_ap": 0.32359114658021904,
      "eval_allNLI-dev_dot_f1": 0.5080763582966226,
      "eval_allNLI-dev_dot_f1_threshold": 613.2178344726562,
      "eval_allNLI-dev_dot_precision": 0.3405511811023622,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.671875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.144635200500488,
      "eval_allNLI-dev_euclidean_ap": 0.3919696045318126,
      "eval_allNLI-dev_euclidean_f1": 0.5120481927710844,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.77474594116211,
      "eval_allNLI-dev_euclidean_precision": 0.34623217922606925,
      "eval_allNLI-dev_euclidean_recall": 0.9826589595375722,
      "eval_allNLI-dev_manhattan_accuracy": 0.66796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 91.93115234375,
      "eval_allNLI-dev_manhattan_ap": 0.404528316560946,
      "eval_allNLI-dev_manhattan_f1": 0.5082212257100149,
      "eval_allNLI-dev_manhattan_f1_threshold": 230.32806396484375,
      "eval_allNLI-dev_manhattan_precision": 0.34274193548387094,
      "eval_allNLI-dev_manhattan_recall": 0.9826589595375722,
      "eval_allNLI-dev_max_accuracy": 0.6796875,
      "eval_allNLI-dev_max_accuracy_threshold": 993.18896484375,
      "eval_allNLI-dev_max_ap": 0.404528316560946,
      "eval_allNLI-dev_max_f1": 0.5120481927710844,
      "eval_allNLI-dev_max_f1_threshold": 613.2178344726562,
      "eval_allNLI-dev_max_precision": 0.34623217922606925,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6088252763279582,
      "eval_sts-test_pearson_cosine": 0.18225596814280462,
      "eval_sts-test_pearson_dot": 0.19389246184304787,
      "eval_sts-test_pearson_euclidean": 0.18398275691369742,
      "eval_sts-test_pearson_manhattan": 0.17222751044724327,
      "eval_sts-test_pearson_max": 0.19389246184304787,
      "eval_sts-test_spearman_cosine": 0.23913221385342298,
      "eval_sts-test_spearman_dot": 0.19319844513101708,
      "eval_sts-test_spearman_euclidean": 0.2106999921922726,
      "eval_sts-test_spearman_manhattan": 0.1993430170763632,
      "eval_sts-test_spearman_max": 0.23913221385342298,
      "eval_vitaminc-pairs_loss": 3.8911848068237305,
      "eval_vitaminc-pairs_runtime": 5.47,
      "eval_vitaminc-pairs_samples_per_second": 23.4,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_negation-triplets_loss": 5.301531791687012,
      "eval_negation-triplets_runtime": 1.0751,
      "eval_negation-triplets_samples_per_second": 119.055,
      "eval_negation-triplets_steps_per_second": 1.86,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_scitail-pairs-pos_loss": 2.535888910293579,
      "eval_scitail-pairs-pos_runtime": 1.2447,
      "eval_scitail-pairs-pos_samples_per_second": 102.834,
      "eval_scitail-pairs-pos_steps_per_second": 1.607,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_scitail-pairs-qa_loss": 4.098081588745117,
      "eval_scitail-pairs-qa_runtime": 0.7828,
      "eval_scitail-pairs-qa_samples_per_second": 163.513,
      "eval_scitail-pairs-qa_steps_per_second": 2.555,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_xsum-pairs_loss": 5.268539905548096,
      "eval_xsum-pairs_runtime": 3.9213,
      "eval_xsum-pairs_samples_per_second": 32.642,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_sciq_pairs_loss": 0.607820987701416,
      "eval_sciq_pairs_runtime": 5.8857,
      "eval_sciq_pairs_samples_per_second": 21.748,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_qasc_pairs_loss": 5.1934356689453125,
      "eval_qasc_pairs_runtime": 0.9116,
      "eval_qasc_pairs_samples_per_second": 140.413,
      "eval_qasc_pairs_steps_per_second": 2.194,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_openbookqa_pairs_loss": 5.243656158447266,
      "eval_openbookqa_pairs_runtime": 0.8604,
      "eval_openbookqa_pairs_samples_per_second": 148.766,
      "eval_openbookqa_pairs_steps_per_second": 2.324,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_msmarco_pairs_loss": 6.208409309387207,
      "eval_msmarco_pairs_runtime": 1.9688,
      "eval_msmarco_pairs_samples_per_second": 65.013,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_nq_pairs_loss": 5.938248157501221,
      "eval_nq_pairs_runtime": 3.3259,
      "eval_nq_pairs_samples_per_second": 38.486,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_trivia_pairs_loss": 5.63157844543457,
      "eval_trivia_pairs_runtime": 4.4797,
      "eval_trivia_pairs_samples_per_second": 28.574,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_gooaq_pairs_loss": 5.568259239196777,
      "eval_gooaq_pairs_runtime": 1.4576,
      "eval_gooaq_pairs_samples_per_second": 87.818,
      "eval_gooaq_pairs_steps_per_second": 1.372,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_paws-pos_loss": 2.3947365283966064,
      "eval_paws-pos_runtime": 1.0203,
      "eval_paws-pos_samples_per_second": 125.448,
      "eval_paws-pos_steps_per_second": 1.96,
      "step": 120
    },
    {
      "epoch": 0.09309542280837858,
      "eval_global_dataset_loss": 4.51961088180542,
      "eval_global_dataset_runtime": 19.3948,
      "eval_global_dataset_samples_per_second": 21.449,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 120
    },
    {
      "epoch": 0.09387121799844841,
      "grad_norm": 8.517334938049316,
      "learning_rate": 4.894242068155111e-06,
      "loss": 4.892,
      "step": 121
    },
    {
      "epoch": 0.09464701318851823,
      "grad_norm": 11.708131790161133,
      "learning_rate": 4.935370152761457e-06,
      "loss": 4.6732,
      "step": 122
    },
    {
      "epoch": 0.09542280837858805,
      "grad_norm": 8.222532272338867,
      "learning_rate": 4.976498237367803e-06,
      "loss": 5.4697,
      "step": 123
    },
    {
      "epoch": 0.09619860356865788,
      "grad_norm": 9.485191345214844,
      "learning_rate": 5.017626321974147e-06,
      "loss": 4.777,
      "step": 124
    },
    {
      "epoch": 0.0969743987587277,
      "grad_norm": 19.364856719970703,
      "learning_rate": 5.0587544065804934e-06,
      "loss": 6.3552,
      "step": 125
    },
    {
      "epoch": 0.09775019394879751,
      "grad_norm": 9.71495246887207,
      "learning_rate": 5.099882491186839e-06,
      "loss": 4.8758,
      "step": 126
    },
    {
      "epoch": 0.09852598913886734,
      "grad_norm": 23.59428596496582,
      "learning_rate": 5.141010575793184e-06,
      "loss": 3.029,
      "step": 127
    },
    {
      "epoch": 0.09930178432893716,
      "grad_norm": 15.757760047912598,
      "learning_rate": 5.182138660399529e-06,
      "loss": 5.7908,
      "step": 128
    },
    {
      "epoch": 0.10007757951900698,
      "grad_norm": 20.3161678314209,
      "learning_rate": 5.2232667450058754e-06,
      "loss": 6.3179,
      "step": 129
    },
    {
      "epoch": 0.1008533747090768,
      "grad_norm": 13.285233497619629,
      "learning_rate": 5.26439482961222e-06,
      "loss": 5.7515,
      "step": 130
    },
    {
      "epoch": 0.10162916989914662,
      "grad_norm": 11.527393341064453,
      "learning_rate": 5.305522914218566e-06,
      "loss": 4.4534,
      "step": 131
    },
    {
      "epoch": 0.10240496508921644,
      "grad_norm": 10.770364761352539,
      "learning_rate": 5.346650998824911e-06,
      "loss": 4.5598,
      "step": 132
    },
    {
      "epoch": 0.10318076027928627,
      "grad_norm": 13.983633995056152,
      "learning_rate": 5.387779083431257e-06,
      "loss": 4.3048,
      "step": 133
    },
    {
      "epoch": 0.10395655546935609,
      "grad_norm": 24.10936164855957,
      "learning_rate": 5.428907168037603e-06,
      "loss": 2.7566,
      "step": 134
    },
    {
      "epoch": 0.10473235065942592,
      "grad_norm": 10.636360168457031,
      "learning_rate": 5.470035252643947e-06,
      "loss": 4.3254,
      "step": 135
    },
    {
      "epoch": 0.10550814584949574,
      "grad_norm": 10.882925987243652,
      "learning_rate": 5.511163337250293e-06,
      "loss": 4.4835,
      "step": 136
    },
    {
      "epoch": 0.10628394103956555,
      "grad_norm": 23.658288955688477,
      "learning_rate": 5.5522914218566394e-06,
      "loss": 4.4302,
      "step": 137
    },
    {
      "epoch": 0.10705973622963538,
      "grad_norm": 11.732893943786621,
      "learning_rate": 5.593419506462984e-06,
      "loss": 4.2167,
      "step": 138
    },
    {
      "epoch": 0.1078355314197052,
      "grad_norm": 15.095183372497559,
      "learning_rate": 5.63454759106933e-06,
      "loss": 4.3158,
      "step": 139
    },
    {
      "epoch": 0.10861132660977502,
      "grad_norm": 19.106853485107422,
      "learning_rate": 5.675675675675675e-06,
      "loss": 5.9198,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_Qnli-dev_cosine_accuracy": 0.6015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.932540237903595,
      "eval_Qnli-dev_cosine_ap": 0.590162641547892,
      "eval_Qnli-dev_cosine_f1": 0.6358381502890174,
      "eval_Qnli-dev_cosine_f1_threshold": 0.8430850505828857,
      "eval_Qnli-dev_cosine_precision": 0.4824561403508772,
      "eval_Qnli-dev_cosine_recall": 0.9322033898305084,
      "eval_Qnli-dev_dot_accuracy": 0.568359375,
      "eval_Qnli-dev_dot_accuracy_threshold": 651.802734375,
      "eval_Qnli-dev_dot_ap": 0.4990308476722506,
      "eval_Qnli-dev_dot_f1": 0.6318607764390897,
      "eval_Qnli-dev_dot_f1_threshold": 359.81072998046875,
      "eval_Qnli-dev_dot_precision": 0.461839530332681,
      "eval_Qnli-dev_dot_recall": 1.0,
      "eval_Qnli-dev_euclidean_accuracy": 0.607421875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 10.347358703613281,
      "eval_Qnli-dev_euclidean_ap": 0.5989545722402487,
      "eval_Qnli-dev_euclidean_f1": 0.6300268096514745,
      "eval_Qnli-dev_euclidean_f1_threshold": 19.583602905273438,
      "eval_Qnli-dev_euclidean_precision": 0.46078431372549017,
      "eval_Qnli-dev_euclidean_recall": 0.9957627118644068,
      "eval_Qnli-dev_manhattan_accuracy": 0.62109375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 161.458251953125,
      "eval_Qnli-dev_manhattan_ap": 0.6134087495053078,
      "eval_Qnli-dev_manhattan_f1": 0.6406685236768802,
      "eval_Qnli-dev_manhattan_f1_threshold": 260.0387268066406,
      "eval_Qnli-dev_manhattan_precision": 0.47717842323651455,
      "eval_Qnli-dev_manhattan_recall": 0.9745762711864406,
      "eval_Qnli-dev_max_accuracy": 0.62109375,
      "eval_Qnli-dev_max_accuracy_threshold": 651.802734375,
      "eval_Qnli-dev_max_ap": 0.6134087495053078,
      "eval_Qnli-dev_max_f1": 0.6406685236768802,
      "eval_Qnli-dev_max_f1_threshold": 359.81072998046875,
      "eval_Qnli-dev_max_precision": 0.4824561403508772,
      "eval_Qnli-dev_max_recall": 1.0,
      "eval_allNLI-dev_cosine_accuracy": 0.68359375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.971808135509491,
      "eval_allNLI-dev_cosine_ap": 0.41916615465917384,
      "eval_allNLI-dev_cosine_f1": 0.5088,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8694682121276855,
      "eval_allNLI-dev_cosine_precision": 0.35176991150442477,
      "eval_allNLI-dev_cosine_recall": 0.9190751445086706,
      "eval_allNLI-dev_dot_accuracy": 0.6640625,
      "eval_allNLI-dev_dot_accuracy_threshold": 875.8065185546875,
      "eval_allNLI-dev_dot_ap": 0.33345963244863186,
      "eval_allNLI-dev_dot_f1": 0.5081723625557207,
      "eval_allNLI-dev_dot_f1_threshold": 514.4766845703125,
      "eval_allNLI-dev_dot_precision": 0.342,
      "eval_allNLI-dev_dot_recall": 0.9884393063583815,
      "eval_allNLI-dev_euclidean_accuracy": 0.673828125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.979422092437744,
      "eval_allNLI-dev_euclidean_ap": 0.41272090015066604,
      "eval_allNLI-dev_euclidean_f1": 0.5102362204724409,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.31092643737793,
      "eval_allNLI-dev_euclidean_precision": 0.35064935064935066,
      "eval_allNLI-dev_euclidean_recall": 0.9364161849710982,
      "eval_allNLI-dev_manhattan_accuracy": 0.673828125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 113.5325698852539,
      "eval_allNLI-dev_manhattan_ap": 0.4170134796589544,
      "eval_allNLI-dev_manhattan_f1": 0.5065885797950219,
      "eval_allNLI-dev_manhattan_f1_threshold": 311.357177734375,
      "eval_allNLI-dev_manhattan_precision": 0.3392156862745098,
      "eval_allNLI-dev_manhattan_recall": 1.0,
      "eval_allNLI-dev_max_accuracy": 0.68359375,
      "eval_allNLI-dev_max_accuracy_threshold": 875.8065185546875,
      "eval_allNLI-dev_max_ap": 0.41916615465917384,
      "eval_allNLI-dev_max_f1": 0.5102362204724409,
      "eval_allNLI-dev_max_f1_threshold": 514.4766845703125,
      "eval_allNLI-dev_max_precision": 0.35176991150442477,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6134087495053078,
      "eval_sts-test_pearson_cosine": 0.19606202486057506,
      "eval_sts-test_pearson_dot": 0.20910750938672273,
      "eval_sts-test_pearson_euclidean": 0.20204170742350583,
      "eval_sts-test_pearson_manhattan": 0.19980066844086258,
      "eval_sts-test_pearson_max": 0.20910750938672273,
      "eval_sts-test_spearman_cosine": 0.2570204565643615,
      "eval_sts-test_spearman_dot": 0.2142791085758339,
      "eval_sts-test_spearman_euclidean": 0.22658230436260302,
      "eval_sts-test_spearman_manhattan": 0.2257667126237448,
      "eval_sts-test_spearman_max": 0.2570204565643615,
      "eval_vitaminc-pairs_loss": 3.860930919647217,
      "eval_vitaminc-pairs_runtime": 5.4616,
      "eval_vitaminc-pairs_samples_per_second": 23.437,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_negation-triplets_loss": 5.22545051574707,
      "eval_negation-triplets_runtime": 1.061,
      "eval_negation-triplets_samples_per_second": 120.643,
      "eval_negation-triplets_steps_per_second": 1.885,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_scitail-pairs-pos_loss": 2.2156143188476562,
      "eval_scitail-pairs-pos_runtime": 1.2311,
      "eval_scitail-pairs-pos_samples_per_second": 103.974,
      "eval_scitail-pairs-pos_steps_per_second": 1.625,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_scitail-pairs-qa_loss": 3.2973973751068115,
      "eval_scitail-pairs-qa_runtime": 0.7709,
      "eval_scitail-pairs-qa_samples_per_second": 166.038,
      "eval_scitail-pairs-qa_steps_per_second": 2.594,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_xsum-pairs_loss": 5.160762310028076,
      "eval_xsum-pairs_runtime": 3.9073,
      "eval_xsum-pairs_samples_per_second": 32.759,
      "eval_xsum-pairs_steps_per_second": 0.512,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_sciq_pairs_loss": 0.6155482530593872,
      "eval_sciq_pairs_runtime": 5.8124,
      "eval_sciq_pairs_samples_per_second": 22.022,
      "eval_sciq_pairs_steps_per_second": 0.344,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_qasc_pairs_loss": 5.0954060554504395,
      "eval_qasc_pairs_runtime": 0.9074,
      "eval_qasc_pairs_samples_per_second": 141.069,
      "eval_qasc_pairs_steps_per_second": 2.204,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_openbookqa_pairs_loss": 5.480427265167236,
      "eval_openbookqa_pairs_runtime": 0.8517,
      "eval_openbookqa_pairs_samples_per_second": 150.279,
      "eval_openbookqa_pairs_steps_per_second": 2.348,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_msmarco_pairs_loss": 6.218542575836182,
      "eval_msmarco_pairs_runtime": 1.9635,
      "eval_msmarco_pairs_samples_per_second": 65.189,
      "eval_msmarco_pairs_steps_per_second": 1.019,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_nq_pairs_loss": 5.9674296379089355,
      "eval_nq_pairs_runtime": 3.3526,
      "eval_nq_pairs_samples_per_second": 38.179,
      "eval_nq_pairs_steps_per_second": 0.597,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_trivia_pairs_loss": 6.06894063949585,
      "eval_trivia_pairs_runtime": 4.4755,
      "eval_trivia_pairs_samples_per_second": 28.6,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_gooaq_pairs_loss": 5.648138523101807,
      "eval_gooaq_pairs_runtime": 1.4628,
      "eval_gooaq_pairs_samples_per_second": 87.504,
      "eval_gooaq_pairs_steps_per_second": 1.367,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_paws-pos_loss": 1.3320106267929077,
      "eval_paws-pos_runtime": 1.0268,
      "eval_paws-pos_samples_per_second": 124.656,
      "eval_paws-pos_steps_per_second": 1.948,
      "step": 140
    },
    {
      "epoch": 0.10861132660977502,
      "eval_global_dataset_loss": 4.069947242736816,
      "eval_global_dataset_runtime": 19.4022,
      "eval_global_dataset_samples_per_second": 21.441,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 140
    },
    {
      "epoch": 0.10938712179984485,
      "grad_norm": 17.907608032226562,
      "learning_rate": 5.716803760282021e-06,
      "loss": 5.8619,
      "step": 141
    },
    {
      "epoch": 0.11016291698991466,
      "grad_norm": 12.681406021118164,
      "learning_rate": 5.757931844888366e-06,
      "loss": 4.42,
      "step": 142
    },
    {
      "epoch": 0.11093871217998448,
      "grad_norm": 29.748260498046875,
      "learning_rate": 5.799059929494712e-06,
      "loss": 6.5458,
      "step": 143
    },
    {
      "epoch": 0.11171450737005431,
      "grad_norm": 17.36277198791504,
      "learning_rate": 5.8401880141010565e-06,
      "loss": 3.7463,
      "step": 144
    },
    {
      "epoch": 0.11249030256012413,
      "grad_norm": 15.745108604431152,
      "learning_rate": 5.881316098707403e-06,
      "loss": 4.8236,
      "step": 145
    },
    {
      "epoch": 0.11326609775019394,
      "grad_norm": 17.49993896484375,
      "learning_rate": 5.922444183313749e-06,
      "loss": 5.9082,
      "step": 146
    },
    {
      "epoch": 0.11404189294026378,
      "grad_norm": 11.602448463439941,
      "learning_rate": 5.963572267920093e-06,
      "loss": 3.9276,
      "step": 147
    },
    {
      "epoch": 0.11481768813033359,
      "grad_norm": 14.728039741516113,
      "learning_rate": 6.004700352526439e-06,
      "loss": 4.3073,
      "step": 148
    },
    {
      "epoch": 0.11559348332040341,
      "grad_norm": 12.118491172790527,
      "learning_rate": 6.045828437132785e-06,
      "loss": 4.06,
      "step": 149
    },
    {
      "epoch": 0.11636927851047324,
      "grad_norm": 14.151768684387207,
      "learning_rate": 6.08695652173913e-06,
      "loss": 4.7036,
      "step": 150
    },
    {
      "epoch": 0.11714507370054306,
      "grad_norm": 12.606175422668457,
      "learning_rate": 6.128084606345475e-06,
      "loss": 3.9509,
      "step": 151
    },
    {
      "epoch": 0.11792086889061287,
      "grad_norm": 38.992183685302734,
      "learning_rate": 6.1692126909518205e-06,
      "loss": 6.3894,
      "step": 152
    },
    {
      "epoch": 0.1186966640806827,
      "grad_norm": 13.61286449432373,
      "learning_rate": 6.210340775558167e-06,
      "loss": 4.4063,
      "step": 153
    },
    {
      "epoch": 0.11947245927075252,
      "grad_norm": 17.750974655151367,
      "learning_rate": 6.251468860164512e-06,
      "loss": 3.6723,
      "step": 154
    },
    {
      "epoch": 0.12024825446082234,
      "grad_norm": 17.65484046936035,
      "learning_rate": 6.292596944770857e-06,
      "loss": 5.462,
      "step": 155
    },
    {
      "epoch": 0.12102404965089217,
      "grad_norm": 12.64035415649414,
      "learning_rate": 6.3337250293772025e-06,
      "loss": 4.579,
      "step": 156
    },
    {
      "epoch": 0.12179984484096198,
      "grad_norm": 11.979784965515137,
      "learning_rate": 6.374853113983549e-06,
      "loss": 3.9228,
      "step": 157
    },
    {
      "epoch": 0.1225756400310318,
      "grad_norm": 12.76739501953125,
      "learning_rate": 6.415981198589893e-06,
      "loss": 3.6178,
      "step": 158
    },
    {
      "epoch": 0.12335143522110163,
      "grad_norm": 27.8046817779541,
      "learning_rate": 6.457109283196239e-06,
      "loss": 5.686,
      "step": 159
    },
    {
      "epoch": 0.12412723041117145,
      "grad_norm": 12.14214038848877,
      "learning_rate": 6.498237367802585e-06,
      "loss": 3.5491,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_Qnli-dev_cosine_accuracy": 0.611328125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9235547780990601,
      "eval_Qnli-dev_cosine_ap": 0.5831965528167927,
      "eval_Qnli-dev_cosine_f1": 0.6318758815232722,
      "eval_Qnli-dev_cosine_f1_threshold": 0.8174055218696594,
      "eval_Qnli-dev_cosine_precision": 0.47357293868921774,
      "eval_Qnli-dev_cosine_recall": 0.9491525423728814,
      "eval_Qnli-dev_dot_accuracy": 0.564453125,
      "eval_Qnli-dev_dot_accuracy_threshold": 650.8389892578125,
      "eval_Qnli-dev_dot_ap": 0.5067183783295084,
      "eval_Qnli-dev_dot_f1": 0.6327077747989276,
      "eval_Qnli-dev_dot_f1_threshold": 399.63836669921875,
      "eval_Qnli-dev_dot_precision": 0.4627450980392157,
      "eval_Qnli-dev_dot_recall": 1.0,
      "eval_Qnli-dev_euclidean_accuracy": 0.6171875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 10.054267883300781,
      "eval_Qnli-dev_euclidean_ap": 0.5948450213638221,
      "eval_Qnli-dev_euclidean_f1": 0.6318607764390897,
      "eval_Qnli-dev_euclidean_f1_threshold": 20.041950225830078,
      "eval_Qnli-dev_euclidean_precision": 0.461839530332681,
      "eval_Qnli-dev_euclidean_recall": 1.0,
      "eval_Qnli-dev_manhattan_accuracy": 0.625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 173.52857971191406,
      "eval_Qnli-dev_manhattan_ap": 0.6122239571226092,
      "eval_Qnli-dev_manhattan_f1": 0.6353591160220995,
      "eval_Qnli-dev_manhattan_f1_threshold": 274.06744384765625,
      "eval_Qnli-dev_manhattan_precision": 0.4713114754098361,
      "eval_Qnli-dev_manhattan_recall": 0.9745762711864406,
      "eval_Qnli-dev_max_accuracy": 0.625,
      "eval_Qnli-dev_max_accuracy_threshold": 650.8389892578125,
      "eval_Qnli-dev_max_ap": 0.6122239571226092,
      "eval_Qnli-dev_max_f1": 0.6353591160220995,
      "eval_Qnli-dev_max_f1_threshold": 399.63836669921875,
      "eval_Qnli-dev_max_precision": 0.47357293868921774,
      "eval_Qnli-dev_max_recall": 1.0,
      "eval_allNLI-dev_cosine_accuracy": 0.6796875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9759693145751953,
      "eval_allNLI-dev_cosine_ap": 0.42359590129311003,
      "eval_allNLI-dev_cosine_f1": 0.5105740181268882,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8282982110977173,
      "eval_allNLI-dev_cosine_precision": 0.3456032719836401,
      "eval_allNLI-dev_cosine_recall": 0.976878612716763,
      "eval_allNLI-dev_dot_accuracy": 0.66796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 799.5001831054688,
      "eval_allNLI-dev_dot_ap": 0.3510979636740506,
      "eval_allNLI-dev_dot_f1": 0.5089820359281437,
      "eval_allNLI-dev_dot_f1_threshold": 532.1497802734375,
      "eval_allNLI-dev_dot_precision": 0.3434343434343434,
      "eval_allNLI-dev_dot_recall": 0.9826589595375722,
      "eval_allNLI-dev_euclidean_accuracy": 0.673828125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.110721588134766,
      "eval_allNLI-dev_euclidean_ap": 0.4178547437007212,
      "eval_allNLI-dev_euclidean_f1": 0.519134775374376,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.405746459960938,
      "eval_allNLI-dev_euclidean_precision": 0.3644859813084112,
      "eval_allNLI-dev_euclidean_recall": 0.9017341040462428,
      "eval_allNLI-dev_manhattan_accuracy": 0.67578125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 103.17061614990234,
      "eval_allNLI-dev_manhattan_ap": 0.4272300717524159,
      "eval_allNLI-dev_manhattan_f1": 0.5107033639143731,
      "eval_allNLI-dev_manhattan_f1_threshold": 245.95425415039062,
      "eval_allNLI-dev_manhattan_precision": 0.3471933471933472,
      "eval_allNLI-dev_manhattan_recall": 0.9653179190751445,
      "eval_allNLI-dev_max_accuracy": 0.6796875,
      "eval_allNLI-dev_max_accuracy_threshold": 799.5001831054688,
      "eval_allNLI-dev_max_ap": 0.4272300717524159,
      "eval_allNLI-dev_max_f1": 0.519134775374376,
      "eval_allNLI-dev_max_f1_threshold": 532.1497802734375,
      "eval_allNLI-dev_max_precision": 0.3644859813084112,
      "eval_allNLI-dev_max_recall": 0.9826589595375722,
      "eval_sequential_score": 0.6122239571226092,
      "eval_sts-test_pearson_cosine": 0.1983814843936258,
      "eval_sts-test_pearson_dot": 0.21567697770934743,
      "eval_sts-test_pearson_euclidean": 0.2076928261154226,
      "eval_sts-test_pearson_manhattan": 0.2134685079189917,
      "eval_sts-test_pearson_max": 0.21567697770934743,
      "eval_sts-test_spearman_cosine": 0.2667653122399071,
      "eval_sts-test_spearman_dot": 0.21757047434864857,
      "eval_sts-test_spearman_euclidean": 0.2401902679264998,
      "eval_sts-test_spearman_manhattan": 0.24235085882647658,
      "eval_sts-test_spearman_max": 0.2667653122399071,
      "eval_vitaminc-pairs_loss": 3.85381817817688,
      "eval_vitaminc-pairs_runtime": 5.4462,
      "eval_vitaminc-pairs_samples_per_second": 23.503,
      "eval_vitaminc-pairs_steps_per_second": 0.367,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_negation-triplets_loss": 5.059137344360352,
      "eval_negation-triplets_runtime": 1.0529,
      "eval_negation-triplets_samples_per_second": 121.569,
      "eval_negation-triplets_steps_per_second": 1.9,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_scitail-pairs-pos_loss": 1.9513375759124756,
      "eval_scitail-pairs-pos_runtime": 1.2192,
      "eval_scitail-pairs-pos_samples_per_second": 104.99,
      "eval_scitail-pairs-pos_steps_per_second": 1.64,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_scitail-pairs-qa_loss": 2.7738723754882812,
      "eval_scitail-pairs-qa_runtime": 0.7658,
      "eval_scitail-pairs-qa_samples_per_second": 167.149,
      "eval_scitail-pairs-qa_steps_per_second": 2.612,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_xsum-pairs_loss": 4.9543375968933105,
      "eval_xsum-pairs_runtime": 3.9138,
      "eval_xsum-pairs_samples_per_second": 32.705,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_sciq_pairs_loss": 0.5856431722640991,
      "eval_sciq_pairs_runtime": 5.846,
      "eval_sciq_pairs_samples_per_second": 21.895,
      "eval_sciq_pairs_steps_per_second": 0.342,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_qasc_pairs_loss": 4.644654750823975,
      "eval_qasc_pairs_runtime": 0.9037,
      "eval_qasc_pairs_samples_per_second": 141.642,
      "eval_qasc_pairs_steps_per_second": 2.213,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_openbookqa_pairs_loss": 5.493581771850586,
      "eval_openbookqa_pairs_runtime": 0.8617,
      "eval_openbookqa_pairs_samples_per_second": 148.55,
      "eval_openbookqa_pairs_steps_per_second": 2.321,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_msmarco_pairs_loss": 5.456345081329346,
      "eval_msmarco_pairs_runtime": 1.9747,
      "eval_msmarco_pairs_samples_per_second": 64.82,
      "eval_msmarco_pairs_steps_per_second": 1.013,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_nq_pairs_loss": 5.471042633056641,
      "eval_nq_pairs_runtime": 3.332,
      "eval_nq_pairs_samples_per_second": 38.416,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_trivia_pairs_loss": 5.90379524230957,
      "eval_trivia_pairs_runtime": 4.4746,
      "eval_trivia_pairs_samples_per_second": 28.606,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_gooaq_pairs_loss": 5.094766139984131,
      "eval_gooaq_pairs_runtime": 1.4626,
      "eval_gooaq_pairs_samples_per_second": 87.517,
      "eval_gooaq_pairs_steps_per_second": 1.367,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_paws-pos_loss": 1.0914796590805054,
      "eval_paws-pos_runtime": 1.0277,
      "eval_paws-pos_samples_per_second": 124.555,
      "eval_paws-pos_steps_per_second": 1.946,
      "step": 160
    },
    {
      "epoch": 0.12412723041117145,
      "eval_global_dataset_loss": 3.7029871940612793,
      "eval_global_dataset_runtime": 19.3902,
      "eval_global_dataset_samples_per_second": 21.454,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 160
    },
    {
      "epoch": 0.12490302560124127,
      "grad_norm": 12.19548511505127,
      "learning_rate": 6.53936545240893e-06,
      "loss": 4.0703,
      "step": 161
    },
    {
      "epoch": 0.1256788207913111,
      "grad_norm": 11.81810188293457,
      "learning_rate": 6.580493537015276e-06,
      "loss": 3.7131,
      "step": 162
    },
    {
      "epoch": 0.1264546159813809,
      "grad_norm": 12.847527503967285,
      "learning_rate": 6.621621621621621e-06,
      "loss": 3.8675,
      "step": 163
    },
    {
      "epoch": 0.12723041117145073,
      "grad_norm": 12.332374572753906,
      "learning_rate": 6.6627497062279665e-06,
      "loss": 3.6557,
      "step": 164
    },
    {
      "epoch": 0.12800620636152055,
      "grad_norm": 15.913554191589355,
      "learning_rate": 6.703877790834312e-06,
      "loss": 5.5114,
      "step": 165
    },
    {
      "epoch": 0.1287820015515904,
      "grad_norm": 12.6423978805542,
      "learning_rate": 6.745005875440658e-06,
      "loss": 3.5924,
      "step": 166
    },
    {
      "epoch": 0.1295577967416602,
      "grad_norm": 11.64156723022461,
      "learning_rate": 6.786133960047002e-06,
      "loss": 3.7331,
      "step": 167
    },
    {
      "epoch": 0.13033359193173003,
      "grad_norm": 14.570131301879883,
      "learning_rate": 6.8272620446533485e-06,
      "loss": 5.2668,
      "step": 168
    },
    {
      "epoch": 0.13110938712179984,
      "grad_norm": 13.375134468078613,
      "learning_rate": 6.868390129259695e-06,
      "loss": 3.5033,
      "step": 169
    },
    {
      "epoch": 0.13188518231186966,
      "grad_norm": 13.718034744262695,
      "learning_rate": 6.909518213866039e-06,
      "loss": 3.9921,
      "step": 170
    },
    {
      "epoch": 0.13266097750193948,
      "grad_norm": 12.68748950958252,
      "learning_rate": 6.950646298472385e-06,
      "loss": 3.3935,
      "step": 171
    },
    {
      "epoch": 0.13343677269200932,
      "grad_norm": 18.421518325805664,
      "learning_rate": 6.99177438307873e-06,
      "loss": 4.9198,
      "step": 172
    },
    {
      "epoch": 0.13421256788207914,
      "grad_norm": 21.028749465942383,
      "learning_rate": 7.032902467685076e-06,
      "loss": 1.3145,
      "step": 173
    },
    {
      "epoch": 0.13498836307214895,
      "grad_norm": 21.025897979736328,
      "learning_rate": 7.074030552291421e-06,
      "loss": 5.0971,
      "step": 174
    },
    {
      "epoch": 0.13576415826221877,
      "grad_norm": 16.524944305419922,
      "learning_rate": 7.115158636897766e-06,
      "loss": 4.7722,
      "step": 175
    },
    {
      "epoch": 0.1365399534522886,
      "grad_norm": 15.925724029541016,
      "learning_rate": 7.1562867215041125e-06,
      "loss": 4.6407,
      "step": 176
    },
    {
      "epoch": 0.1373157486423584,
      "grad_norm": 19.057390213012695,
      "learning_rate": 7.197414806110458e-06,
      "loss": 5.1164,
      "step": 177
    },
    {
      "epoch": 0.13809154383242825,
      "grad_norm": 15.260638236999512,
      "learning_rate": 7.238542890716803e-06,
      "loss": 3.751,
      "step": 178
    },
    {
      "epoch": 0.13886733902249807,
      "grad_norm": 30.054716110229492,
      "learning_rate": 7.279670975323148e-06,
      "loss": 5.4906,
      "step": 179
    },
    {
      "epoch": 0.13964313421256788,
      "grad_norm": 25.419301986694336,
      "learning_rate": 7.3207990599294945e-06,
      "loss": 5.1472,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_Qnli-dev_cosine_accuracy": 0.615234375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9118244647979736,
      "eval_Qnli-dev_cosine_ap": 0.5757630053560099,
      "eval_Qnli-dev_cosine_f1": 0.6347469220246238,
      "eval_Qnli-dev_cosine_f1_threshold": 0.708939254283905,
      "eval_Qnli-dev_cosine_precision": 0.4686868686868687,
      "eval_Qnli-dev_cosine_recall": 0.9830508474576272,
      "eval_Qnli-dev_dot_accuracy": 0.57421875,
      "eval_Qnli-dev_dot_accuracy_threshold": 521.3780517578125,
      "eval_Qnli-dev_dot_ap": 0.5092251488391427,
      "eval_Qnli-dev_dot_f1": 0.6317204301075269,
      "eval_Qnli-dev_dot_f1_threshold": 351.0001220703125,
      "eval_Qnli-dev_dot_precision": 0.4625984251968504,
      "eval_Qnli-dev_dot_recall": 0.9957627118644068,
      "eval_Qnli-dev_euclidean_accuracy": 0.609375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 10.459676742553711,
      "eval_Qnli-dev_euclidean_ap": 0.5817988420936584,
      "eval_Qnli-dev_euclidean_f1": 0.6318607764390897,
      "eval_Qnli-dev_euclidean_f1_threshold": 21.422916412353516,
      "eval_Qnli-dev_euclidean_precision": 0.461839530332681,
      "eval_Qnli-dev_euclidean_recall": 1.0,
      "eval_Qnli-dev_manhattan_accuracy": 0.619140625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 212.72662353515625,
      "eval_Qnli-dev_manhattan_ap": 0.5901977757397192,
      "eval_Qnli-dev_manhattan_f1": 0.6324324324324324,
      "eval_Qnli-dev_manhattan_f1_threshold": 349.28887939453125,
      "eval_Qnli-dev_manhattan_precision": 0.4642857142857143,
      "eval_Qnli-dev_manhattan_recall": 0.9915254237288136,
      "eval_Qnli-dev_max_accuracy": 0.619140625,
      "eval_Qnli-dev_max_accuracy_threshold": 521.3780517578125,
      "eval_Qnli-dev_max_ap": 0.5901977757397192,
      "eval_Qnli-dev_max_f1": 0.6347469220246238,
      "eval_Qnli-dev_max_f1_threshold": 351.0001220703125,
      "eval_Qnli-dev_max_precision": 0.4686868686868687,
      "eval_Qnli-dev_max_recall": 1.0,
      "eval_allNLI-dev_cosine_accuracy": 0.681640625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9692702293395996,
      "eval_allNLI-dev_cosine_ap": 0.43588706986821285,
      "eval_allNLI-dev_cosine_f1": 0.5211505922165821,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8656014800071716,
      "eval_allNLI-dev_cosine_precision": 0.3684210526315789,
      "eval_allNLI-dev_cosine_recall": 0.8901734104046243,
      "eval_allNLI-dev_dot_accuracy": 0.66796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 785.7974243164062,
      "eval_allNLI-dev_dot_ap": 0.36610448753393265,
      "eval_allNLI-dev_dot_f1": 0.5118343195266272,
      "eval_allNLI-dev_dot_f1_threshold": 447.95782470703125,
      "eval_allNLI-dev_dot_precision": 0.34393638170974156,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.677734375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.728440284729004,
      "eval_allNLI-dev_euclidean_ap": 0.4317993856992305,
      "eval_allNLI-dev_euclidean_f1": 0.5214626391096979,
      "eval_allNLI-dev_euclidean_f1_threshold": 15.216902732849121,
      "eval_allNLI-dev_euclidean_precision": 0.35964912280701755,
      "eval_allNLI-dev_euclidean_recall": 0.9479768786127167,
      "eval_allNLI-dev_manhattan_accuracy": 0.673828125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 101.38760375976562,
      "eval_allNLI-dev_manhattan_ap": 0.43314824920268913,
      "eval_allNLI-dev_manhattan_f1": 0.5157421289355323,
      "eval_allNLI-dev_manhattan_f1_threshold": 286.70037841796875,
      "eval_allNLI-dev_manhattan_precision": 0.3481781376518219,
      "eval_allNLI-dev_manhattan_recall": 0.9942196531791907,
      "eval_allNLI-dev_max_accuracy": 0.681640625,
      "eval_allNLI-dev_max_accuracy_threshold": 785.7974243164062,
      "eval_allNLI-dev_max_ap": 0.43588706986821285,
      "eval_allNLI-dev_max_f1": 0.5214626391096979,
      "eval_allNLI-dev_max_f1_threshold": 447.95782470703125,
      "eval_allNLI-dev_max_precision": 0.3684210526315789,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.5901977757397192,
      "eval_sts-test_pearson_cosine": 0.20493152812453436,
      "eval_sts-test_pearson_dot": 0.21775282373018834,
      "eval_sts-test_pearson_euclidean": 0.2301348094949043,
      "eval_sts-test_pearson_manhattan": 0.23840753470415393,
      "eval_sts-test_pearson_max": 0.23840753470415393,
      "eval_sts-test_spearman_cosine": 0.28828077894040277,
      "eval_sts-test_spearman_dot": 0.23061179744080743,
      "eval_sts-test_spearman_euclidean": 0.26600149771047865,
      "eval_sts-test_spearman_manhattan": 0.26965490118794977,
      "eval_sts-test_spearman_max": 0.28828077894040277,
      "eval_vitaminc-pairs_loss": 3.7227895259857178,
      "eval_vitaminc-pairs_runtime": 5.4557,
      "eval_vitaminc-pairs_samples_per_second": 23.462,
      "eval_vitaminc-pairs_steps_per_second": 0.367,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_negation-triplets_loss": 4.880922794342041,
      "eval_negation-triplets_runtime": 1.0642,
      "eval_negation-triplets_samples_per_second": 120.279,
      "eval_negation-triplets_steps_per_second": 1.879,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_scitail-pairs-pos_loss": 1.6082611083984375,
      "eval_scitail-pairs-pos_runtime": 1.2328,
      "eval_scitail-pairs-pos_samples_per_second": 103.83,
      "eval_scitail-pairs-pos_steps_per_second": 1.622,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_scitail-pairs-qa_loss": 2.3117823600769043,
      "eval_scitail-pairs-qa_runtime": 0.763,
      "eval_scitail-pairs-qa_samples_per_second": 167.752,
      "eval_scitail-pairs-qa_steps_per_second": 2.621,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_xsum-pairs_loss": 4.128580093383789,
      "eval_xsum-pairs_runtime": 3.9087,
      "eval_xsum-pairs_samples_per_second": 32.748,
      "eval_xsum-pairs_steps_per_second": 0.512,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_sciq_pairs_loss": 0.4913565516471863,
      "eval_sciq_pairs_runtime": 5.8016,
      "eval_sciq_pairs_samples_per_second": 22.063,
      "eval_sciq_pairs_steps_per_second": 0.345,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_qasc_pairs_loss": 4.587019920349121,
      "eval_qasc_pairs_runtime": 0.8933,
      "eval_qasc_pairs_samples_per_second": 143.294,
      "eval_qasc_pairs_steps_per_second": 2.239,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_openbookqa_pairs_loss": 5.624441146850586,
      "eval_openbookqa_pairs_runtime": 0.852,
      "eval_openbookqa_pairs_samples_per_second": 150.235,
      "eval_openbookqa_pairs_steps_per_second": 2.347,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_msmarco_pairs_loss": 5.057087421417236,
      "eval_msmarco_pairs_runtime": 1.965,
      "eval_msmarco_pairs_samples_per_second": 65.14,
      "eval_msmarco_pairs_steps_per_second": 1.018,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_nq_pairs_loss": 5.1600823402404785,
      "eval_nq_pairs_runtime": 3.3352,
      "eval_nq_pairs_samples_per_second": 38.378,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_trivia_pairs_loss": 5.498032093048096,
      "eval_trivia_pairs_runtime": 4.4801,
      "eval_trivia_pairs_samples_per_second": 28.57,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_gooaq_pairs_loss": 4.9159464836120605,
      "eval_gooaq_pairs_runtime": 1.4649,
      "eval_gooaq_pairs_samples_per_second": 87.38,
      "eval_gooaq_pairs_steps_per_second": 1.365,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_paws-pos_loss": 0.44706642627716064,
      "eval_paws-pos_runtime": 1.0313,
      "eval_paws-pos_samples_per_second": 124.114,
      "eval_paws-pos_steps_per_second": 1.939,
      "step": 180
    },
    {
      "epoch": 0.13964313421256788,
      "eval_global_dataset_loss": 3.263042688369751,
      "eval_global_dataset_runtime": 19.4013,
      "eval_global_dataset_samples_per_second": 21.442,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 180
    },
    {
      "epoch": 0.1404189294026377,
      "grad_norm": 17.023818969726562,
      "learning_rate": 7.361927144535839e-06,
      "loss": 4.17,
      "step": 181
    },
    {
      "epoch": 0.14119472459270752,
      "grad_norm": 22.472793579101562,
      "learning_rate": 7.403055229142185e-06,
      "loss": 4.8977,
      "step": 182
    },
    {
      "epoch": 0.14197051978277736,
      "grad_norm": 14.055580139160156,
      "learning_rate": 7.444183313748531e-06,
      "loss": 3.5031,
      "step": 183
    },
    {
      "epoch": 0.14274631497284718,
      "grad_norm": 14.841517448425293,
      "learning_rate": 7.485311398354876e-06,
      "loss": 3.4286,
      "step": 184
    },
    {
      "epoch": 0.143522110162917,
      "grad_norm": 21.218738555908203,
      "learning_rate": 7.526439482961222e-06,
      "loss": 3.2536,
      "step": 185
    },
    {
      "epoch": 0.1442979053529868,
      "grad_norm": 14.635804176330566,
      "learning_rate": 7.567567567567567e-06,
      "loss": 4.1632,
      "step": 186
    },
    {
      "epoch": 0.14507370054305663,
      "grad_norm": 16.717111587524414,
      "learning_rate": 7.608695652173912e-06,
      "loss": 3.6512,
      "step": 187
    },
    {
      "epoch": 0.14584949573312644,
      "grad_norm": 20.993993759155273,
      "learning_rate": 7.649823736780258e-06,
      "loss": 3.3453,
      "step": 188
    },
    {
      "epoch": 0.1466252909231963,
      "grad_norm": 21.484180450439453,
      "learning_rate": 7.690951821386603e-06,
      "loss": 4.9785,
      "step": 189
    },
    {
      "epoch": 0.1474010861132661,
      "grad_norm": 14.600364685058594,
      "learning_rate": 7.732079905992948e-06,
      "loss": 3.1781,
      "step": 190
    },
    {
      "epoch": 0.14817688130333592,
      "grad_norm": 17.323484420776367,
      "learning_rate": 7.773207990599295e-06,
      "loss": 3.6681,
      "step": 191
    },
    {
      "epoch": 0.14895267649340574,
      "grad_norm": 17.703405380249023,
      "learning_rate": 7.814336075205639e-06,
      "loss": 4.5109,
      "step": 192
    },
    {
      "epoch": 0.14972847168347556,
      "grad_norm": 15.650117874145508,
      "learning_rate": 7.855464159811986e-06,
      "loss": 4.4412,
      "step": 193
    },
    {
      "epoch": 0.15050426687354537,
      "grad_norm": 30.876625061035156,
      "learning_rate": 7.896592244418331e-06,
      "loss": 5.1287,
      "step": 194
    },
    {
      "epoch": 0.15128006206361522,
      "grad_norm": 18.507810592651367,
      "learning_rate": 7.937720329024676e-06,
      "loss": 4.2127,
      "step": 195
    },
    {
      "epoch": 0.15205585725368503,
      "grad_norm": 14.450047492980957,
      "learning_rate": 7.978848413631022e-06,
      "loss": 3.1766,
      "step": 196
    },
    {
      "epoch": 0.15283165244375485,
      "grad_norm": 20.77067756652832,
      "learning_rate": 8.019976498237367e-06,
      "loss": 2.5901,
      "step": 197
    },
    {
      "epoch": 0.15360744763382467,
      "grad_norm": 12.4572114944458,
      "learning_rate": 8.061104582843712e-06,
      "loss": 3.5886,
      "step": 198
    },
    {
      "epoch": 0.15438324282389448,
      "grad_norm": 15.76103687286377,
      "learning_rate": 8.102232667450058e-06,
      "loss": 2.9085,
      "step": 199
    },
    {
      "epoch": 0.1551590380139643,
      "grad_norm": 14.595601081848145,
      "learning_rate": 8.143360752056405e-06,
      "loss": 2.4958,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_Qnli-dev_cosine_accuracy": 0.615234375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8780630826950073,
      "eval_Qnli-dev_cosine_ap": 0.6112556879875849,
      "eval_Qnli-dev_cosine_f1": 0.6363636363636364,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7175576090812683,
      "eval_Qnli-dev_cosine_precision": 0.4714285714285714,
      "eval_Qnli-dev_cosine_recall": 0.9788135593220338,
      "eval_Qnli-dev_dot_accuracy": 0.580078125,
      "eval_Qnli-dev_dot_accuracy_threshold": 530.33447265625,
      "eval_Qnli-dev_dot_ap": 0.5372984783278565,
      "eval_Qnli-dev_dot_f1": 0.6305555555555555,
      "eval_Qnli-dev_dot_f1_threshold": 403.0582275390625,
      "eval_Qnli-dev_dot_precision": 0.4690082644628099,
      "eval_Qnli-dev_dot_recall": 0.961864406779661,
      "eval_Qnli-dev_euclidean_accuracy": 0.619140625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.641845703125,
      "eval_Qnli-dev_euclidean_ap": 0.6133386902087727,
      "eval_Qnli-dev_euclidean_f1": 0.6331521739130436,
      "eval_Qnli-dev_euclidean_f1_threshold": 19.538082122802734,
      "eval_Qnli-dev_euclidean_precision": 0.466,
      "eval_Qnli-dev_euclidean_recall": 0.9872881355932204,
      "eval_Qnli-dev_manhattan_accuracy": 0.619140625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 190.95291137695312,
      "eval_Qnli-dev_manhattan_ap": 0.6200633454752746,
      "eval_Qnli-dev_manhattan_f1": 0.6364883401920438,
      "eval_Qnli-dev_manhattan_f1_threshold": 324.4531555175781,
      "eval_Qnli-dev_manhattan_precision": 0.47058823529411764,
      "eval_Qnli-dev_manhattan_recall": 0.9830508474576272,
      "eval_Qnli-dev_max_accuracy": 0.619140625,
      "eval_Qnli-dev_max_accuracy_threshold": 530.33447265625,
      "eval_Qnli-dev_max_ap": 0.6200633454752746,
      "eval_Qnli-dev_max_f1": 0.6364883401920438,
      "eval_Qnli-dev_max_f1_threshold": 403.0582275390625,
      "eval_Qnli-dev_max_precision": 0.4714285714285714,
      "eval_Qnli-dev_max_recall": 0.9872881355932204,
      "eval_allNLI-dev_cosine_accuracy": 0.6875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.976324200630188,
      "eval_allNLI-dev_cosine_ap": 0.45960393014401535,
      "eval_allNLI-dev_cosine_f1": 0.5253164556962024,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8385776877403259,
      "eval_allNLI-dev_cosine_precision": 0.3616557734204793,
      "eval_allNLI-dev_cosine_recall": 0.9595375722543352,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 772.0188598632812,
      "eval_allNLI-dev_dot_ap": 0.3804150461800332,
      "eval_allNLI-dev_dot_f1": 0.5080763582966226,
      "eval_allNLI-dev_dot_f1_threshold": 444.7850646972656,
      "eval_allNLI-dev_dot_precision": 0.3405511811023622,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.685546875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 5.875195503234863,
      "eval_allNLI-dev_euclidean_ap": 0.4551932697343415,
      "eval_allNLI-dev_euclidean_f1": 0.5257903494176372,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.960739135742188,
      "eval_allNLI-dev_euclidean_precision": 0.3691588785046729,
      "eval_allNLI-dev_euclidean_recall": 0.9132947976878613,
      "eval_allNLI-dev_manhattan_accuracy": 0.681640625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 96.69795227050781,
      "eval_allNLI-dev_manhattan_ap": 0.4537023325460285,
      "eval_allNLI-dev_manhattan_f1": 0.5204081632653061,
      "eval_allNLI-dev_manhattan_f1_threshold": 222.21884155273438,
      "eval_allNLI-dev_manhattan_precision": 0.3686746987951807,
      "eval_allNLI-dev_manhattan_recall": 0.884393063583815,
      "eval_allNLI-dev_max_accuracy": 0.6875,
      "eval_allNLI-dev_max_accuracy_threshold": 772.0188598632812,
      "eval_allNLI-dev_max_ap": 0.45960393014401535,
      "eval_allNLI-dev_max_f1": 0.5257903494176372,
      "eval_allNLI-dev_max_f1_threshold": 444.7850646972656,
      "eval_allNLI-dev_max_precision": 0.3691588785046729,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6200633454752746,
      "eval_sts-test_pearson_cosine": 0.24924277969472153,
      "eval_sts-test_pearson_dot": 0.20632094538884468,
      "eval_sts-test_pearson_euclidean": 0.2775041116953867,
      "eval_sts-test_pearson_manhattan": 0.29073367102351505,
      "eval_sts-test_pearson_max": 0.29073367102351505,
      "eval_sts-test_spearman_cosine": 0.3391141842675074,
      "eval_sts-test_spearman_dot": 0.21011509320588695,
      "eval_sts-test_spearman_euclidean": 0.31565870563443316,
      "eval_sts-test_spearman_manhattan": 0.3219084430440491,
      "eval_sts-test_spearman_max": 0.3391141842675074,
      "eval_vitaminc-pairs_loss": 3.716855764389038,
      "eval_vitaminc-pairs_runtime": 5.4756,
      "eval_vitaminc-pairs_samples_per_second": 23.377,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_negation-triplets_loss": 4.766229152679443,
      "eval_negation-triplets_runtime": 1.0705,
      "eval_negation-triplets_samples_per_second": 119.57,
      "eval_negation-triplets_steps_per_second": 1.868,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_scitail-pairs-pos_loss": 0.9834614992141724,
      "eval_scitail-pairs-pos_runtime": 1.2447,
      "eval_scitail-pairs-pos_samples_per_second": 102.839,
      "eval_scitail-pairs-pos_steps_per_second": 1.607,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_scitail-pairs-qa_loss": 1.3808467388153076,
      "eval_scitail-pairs-qa_runtime": 0.7767,
      "eval_scitail-pairs-qa_samples_per_second": 164.794,
      "eval_scitail-pairs-qa_steps_per_second": 2.575,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_xsum-pairs_loss": 3.506582260131836,
      "eval_xsum-pairs_runtime": 3.9348,
      "eval_xsum-pairs_samples_per_second": 32.53,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_sciq_pairs_loss": 0.38454076647758484,
      "eval_sciq_pairs_runtime": 5.8783,
      "eval_sciq_pairs_samples_per_second": 21.775,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_qasc_pairs_loss": 3.758909225463867,
      "eval_qasc_pairs_runtime": 0.9063,
      "eval_qasc_pairs_samples_per_second": 141.232,
      "eval_qasc_pairs_steps_per_second": 2.207,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_openbookqa_pairs_loss": 4.948967456817627,
      "eval_openbookqa_pairs_runtime": 0.8606,
      "eval_openbookqa_pairs_samples_per_second": 148.737,
      "eval_openbookqa_pairs_steps_per_second": 2.324,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_msmarco_pairs_loss": 4.785572528839111,
      "eval_msmarco_pairs_runtime": 1.9606,
      "eval_msmarco_pairs_samples_per_second": 65.286,
      "eval_msmarco_pairs_steps_per_second": 1.02,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_nq_pairs_loss": 4.675125598907471,
      "eval_nq_pairs_runtime": 3.3155,
      "eval_nq_pairs_samples_per_second": 38.607,
      "eval_nq_pairs_steps_per_second": 0.603,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_trivia_pairs_loss": 4.418967247009277,
      "eval_trivia_pairs_runtime": 4.478,
      "eval_trivia_pairs_samples_per_second": 28.584,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_gooaq_pairs_loss": 4.486730575561523,
      "eval_gooaq_pairs_runtime": 1.4616,
      "eval_gooaq_pairs_samples_per_second": 87.578,
      "eval_gooaq_pairs_steps_per_second": 1.368,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_paws-pos_loss": 0.4021705687046051,
      "eval_paws-pos_runtime": 1.0276,
      "eval_paws-pos_samples_per_second": 124.562,
      "eval_paws-pos_steps_per_second": 1.946,
      "step": 200
    },
    {
      "epoch": 0.1551590380139643,
      "eval_global_dataset_loss": 2.6410105228424072,
      "eval_global_dataset_runtime": 19.3933,
      "eval_global_dataset_samples_per_second": 21.451,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 200
    },
    {
      "epoch": 0.15593483320403415,
      "grad_norm": 36.21416091918945,
      "learning_rate": 8.184488836662748e-06,
      "loss": 5.5704,
      "step": 201
    },
    {
      "epoch": 0.15671062839410396,
      "grad_norm": 15.138063430786133,
      "learning_rate": 8.225616921269095e-06,
      "loss": 2.8612,
      "step": 202
    },
    {
      "epoch": 0.15748642358417378,
      "grad_norm": 27.27367401123047,
      "learning_rate": 8.26674500587544e-06,
      "loss": 4.8846,
      "step": 203
    },
    {
      "epoch": 0.1582622187742436,
      "grad_norm": 19.24480438232422,
      "learning_rate": 8.307873090481786e-06,
      "loss": 3.1182,
      "step": 204
    },
    {
      "epoch": 0.1590380139643134,
      "grad_norm": 18.584644317626953,
      "learning_rate": 8.349001175088131e-06,
      "loss": 1.9789,
      "step": 205
    },
    {
      "epoch": 0.15981380915438323,
      "grad_norm": 15.61733341217041,
      "learning_rate": 8.390129259694476e-06,
      "loss": 2.9743,
      "step": 206
    },
    {
      "epoch": 0.16058960434445307,
      "grad_norm": 16.221357345581055,
      "learning_rate": 8.431257344300822e-06,
      "loss": 3.6543,
      "step": 207
    },
    {
      "epoch": 0.1613653995345229,
      "grad_norm": 13.963678359985352,
      "learning_rate": 8.472385428907167e-06,
      "loss": 3.117,
      "step": 208
    },
    {
      "epoch": 0.1621411947245927,
      "grad_norm": 18.764089584350586,
      "learning_rate": 8.513513513513514e-06,
      "loss": 1.5977,
      "step": 209
    },
    {
      "epoch": 0.16291698991466252,
      "grad_norm": 29.377960205078125,
      "learning_rate": 8.554641598119857e-06,
      "loss": 5.1443,
      "step": 210
    },
    {
      "epoch": 0.16369278510473234,
      "grad_norm": 13.549287796020508,
      "learning_rate": 8.595769682726204e-06,
      "loss": 0.668,
      "step": 211
    },
    {
      "epoch": 0.16446858029480219,
      "grad_norm": 14.000697135925293,
      "learning_rate": 8.636897767332548e-06,
      "loss": 0.7522,
      "step": 212
    },
    {
      "epoch": 0.165244375484872,
      "grad_norm": 18.982425689697266,
      "learning_rate": 8.678025851938895e-06,
      "loss": 2.3447,
      "step": 213
    },
    {
      "epoch": 0.16602017067494182,
      "grad_norm": 13.098822593688965,
      "learning_rate": 8.71915393654524e-06,
      "loss": 0.5818,
      "step": 214
    },
    {
      "epoch": 0.16679596586501164,
      "grad_norm": 17.622783660888672,
      "learning_rate": 8.760282021151586e-06,
      "loss": 3.556,
      "step": 215
    },
    {
      "epoch": 0.16757176105508145,
      "grad_norm": 24.308530807495117,
      "learning_rate": 8.801410105757933e-06,
      "loss": 2.8425,
      "step": 216
    },
    {
      "epoch": 0.16834755624515127,
      "grad_norm": 41.18635559082031,
      "learning_rate": 8.842538190364276e-06,
      "loss": 5.4947,
      "step": 217
    },
    {
      "epoch": 0.16912335143522111,
      "grad_norm": 38.11179733276367,
      "learning_rate": 8.883666274970621e-06,
      "loss": 4.2956,
      "step": 218
    },
    {
      "epoch": 0.16989914662529093,
      "grad_norm": 20.423124313354492,
      "learning_rate": 8.924794359576967e-06,
      "loss": 2.1325,
      "step": 219
    },
    {
      "epoch": 0.17067494181536075,
      "grad_norm": 19.0192813873291,
      "learning_rate": 8.965922444183314e-06,
      "loss": 1.4286,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_Qnli-dev_cosine_accuracy": 0.625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8608779907226562,
      "eval_Qnli-dev_cosine_ap": 0.6155996680907755,
      "eval_Qnli-dev_cosine_f1": 0.6555183946488294,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7760155200958252,
      "eval_Qnli-dev_cosine_precision": 0.5414364640883977,
      "eval_Qnli-dev_cosine_recall": 0.8305084745762712,
      "eval_Qnli-dev_dot_accuracy": 0.62109375,
      "eval_Qnli-dev_dot_accuracy_threshold": 477.1441650390625,
      "eval_Qnli-dev_dot_ap": 0.5823923648803983,
      "eval_Qnli-dev_dot_f1": 0.6345029239766081,
      "eval_Qnli-dev_dot_f1_threshold": 358.5615234375,
      "eval_Qnli-dev_dot_precision": 0.484375,
      "eval_Qnli-dev_dot_recall": 0.9194915254237288,
      "eval_Qnli-dev_euclidean_accuracy": 0.625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.561055183410645,
      "eval_Qnli-dev_euclidean_ap": 0.6128136787518578,
      "eval_Qnli-dev_euclidean_f1": 0.6476510067114094,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.50450325012207,
      "eval_Qnli-dev_euclidean_precision": 0.5361111111111111,
      "eval_Qnli-dev_euclidean_recall": 0.8177966101694916,
      "eval_Qnli-dev_manhattan_accuracy": 0.619140625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 215.1610565185547,
      "eval_Qnli-dev_manhattan_ap": 0.621124218438047,
      "eval_Qnli-dev_manhattan_f1": 0.645484949832776,
      "eval_Qnli-dev_manhattan_f1_threshold": 273.8544921875,
      "eval_Qnli-dev_manhattan_precision": 0.5331491712707183,
      "eval_Qnli-dev_manhattan_recall": 0.8177966101694916,
      "eval_Qnli-dev_max_accuracy": 0.625,
      "eval_Qnli-dev_max_accuracy_threshold": 477.1441650390625,
      "eval_Qnli-dev_max_ap": 0.621124218438047,
      "eval_Qnli-dev_max_f1": 0.6555183946488294,
      "eval_Qnli-dev_max_f1_threshold": 358.5615234375,
      "eval_Qnli-dev_max_precision": 0.5414364640883977,
      "eval_Qnli-dev_max_recall": 0.9194915254237288,
      "eval_allNLI-dev_cosine_accuracy": 0.685546875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9713066816329956,
      "eval_allNLI-dev_cosine_ap": 0.48223591780287633,
      "eval_allNLI-dev_cosine_f1": 0.5408805031446541,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8952139616012573,
      "eval_allNLI-dev_cosine_precision": 0.4243421052631579,
      "eval_allNLI-dev_cosine_recall": 0.7456647398843931,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 741.37939453125,
      "eval_allNLI-dev_dot_ap": 0.3936517100476376,
      "eval_allNLI-dev_dot_f1": 0.5074626865671642,
      "eval_allNLI-dev_dot_f1_threshold": 416.87164306640625,
      "eval_allNLI-dev_dot_precision": 0.3420523138832998,
      "eval_allNLI-dev_dot_recall": 0.9826589595375722,
      "eval_allNLI-dev_euclidean_accuracy": 0.685546875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.748725891113281,
      "eval_allNLI-dev_euclidean_ap": 0.47719987976648454,
      "eval_allNLI-dev_euclidean_f1": 0.5415860735009671,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.946854591369629,
      "eval_allNLI-dev_euclidean_precision": 0.4069767441860465,
      "eval_allNLI-dev_euclidean_recall": 0.8092485549132948,
      "eval_allNLI-dev_manhattan_accuracy": 0.685546875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 110.15467834472656,
      "eval_allNLI-dev_manhattan_ap": 0.4846184039440549,
      "eval_allNLI-dev_manhattan_f1": 0.5335753176043557,
      "eval_allNLI-dev_manhattan_f1_threshold": 234.3075408935547,
      "eval_allNLI-dev_manhattan_precision": 0.3888888888888889,
      "eval_allNLI-dev_manhattan_recall": 0.8497109826589595,
      "eval_allNLI-dev_max_accuracy": 0.685546875,
      "eval_allNLI-dev_max_accuracy_threshold": 741.37939453125,
      "eval_allNLI-dev_max_ap": 0.4846184039440549,
      "eval_allNLI-dev_max_f1": 0.5415860735009671,
      "eval_allNLI-dev_max_f1_threshold": 416.87164306640625,
      "eval_allNLI-dev_max_precision": 0.4243421052631579,
      "eval_allNLI-dev_max_recall": 0.9826589595375722,
      "eval_sequential_score": 0.621124218438047,
      "eval_sts-test_pearson_cosine": 0.31919410971368356,
      "eval_sts-test_pearson_dot": 0.21556048485576235,
      "eval_sts-test_pearson_euclidean": 0.35723202726898373,
      "eval_sts-test_pearson_manhattan": 0.36765421659339287,
      "eval_sts-test_pearson_max": 0.36765421659339287,
      "eval_sts-test_spearman_cosine": 0.41124188237768894,
      "eval_sts-test_spearman_dot": 0.2248200891915325,
      "eval_sts-test_spearman_euclidean": 0.389006828577642,
      "eval_sts-test_spearman_manhattan": 0.39845426736998035,
      "eval_sts-test_spearman_max": 0.41124188237768894,
      "eval_vitaminc-pairs_loss": 4.022590160369873,
      "eval_vitaminc-pairs_runtime": 5.4704,
      "eval_vitaminc-pairs_samples_per_second": 23.399,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_negation-triplets_loss": 4.421084403991699,
      "eval_negation-triplets_runtime": 1.0619,
      "eval_negation-triplets_samples_per_second": 120.534,
      "eval_negation-triplets_steps_per_second": 1.883,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_scitail-pairs-pos_loss": 0.7828177809715271,
      "eval_scitail-pairs-pos_runtime": 1.2253,
      "eval_scitail-pairs-pos_samples_per_second": 104.468,
      "eval_scitail-pairs-pos_steps_per_second": 1.632,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_scitail-pairs-qa_loss": 0.9572672843933105,
      "eval_scitail-pairs-qa_runtime": 0.7677,
      "eval_scitail-pairs-qa_samples_per_second": 166.739,
      "eval_scitail-pairs-qa_steps_per_second": 2.605,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_xsum-pairs_loss": 3.0789806842803955,
      "eval_xsum-pairs_runtime": 3.9039,
      "eval_xsum-pairs_samples_per_second": 32.788,
      "eval_xsum-pairs_steps_per_second": 0.512,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_sciq_pairs_loss": 0.39149752259254456,
      "eval_sciq_pairs_runtime": 5.8117,
      "eval_sciq_pairs_samples_per_second": 22.024,
      "eval_sciq_pairs_steps_per_second": 0.344,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_qasc_pairs_loss": 3.374030828475952,
      "eval_qasc_pairs_runtime": 0.9033,
      "eval_qasc_pairs_samples_per_second": 141.696,
      "eval_qasc_pairs_steps_per_second": 2.214,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_openbookqa_pairs_loss": 5.161572456359863,
      "eval_openbookqa_pairs_runtime": 0.8619,
      "eval_openbookqa_pairs_samples_per_second": 148.506,
      "eval_openbookqa_pairs_steps_per_second": 2.32,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_msmarco_pairs_loss": 4.489230632781982,
      "eval_msmarco_pairs_runtime": 1.9668,
      "eval_msmarco_pairs_samples_per_second": 65.079,
      "eval_msmarco_pairs_steps_per_second": 1.017,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_nq_pairs_loss": 4.549116611480713,
      "eval_nq_pairs_runtime": 3.3346,
      "eval_nq_pairs_samples_per_second": 38.385,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_trivia_pairs_loss": 5.130815029144287,
      "eval_trivia_pairs_runtime": 4.4818,
      "eval_trivia_pairs_samples_per_second": 28.56,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_gooaq_pairs_loss": 3.8106689453125,
      "eval_gooaq_pairs_runtime": 1.4609,
      "eval_gooaq_pairs_samples_per_second": 87.615,
      "eval_gooaq_pairs_steps_per_second": 1.369,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_paws-pos_loss": 0.1346072554588318,
      "eval_paws-pos_runtime": 1.0308,
      "eval_paws-pos_samples_per_second": 124.178,
      "eval_paws-pos_steps_per_second": 1.94,
      "step": 220
    },
    {
      "epoch": 0.17067494181536075,
      "eval_global_dataset_loss": 2.3529915809631348,
      "eval_global_dataset_runtime": 19.4389,
      "eval_global_dataset_samples_per_second": 21.4,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 220
    },
    {
      "epoch": 0.17145073700543056,
      "grad_norm": 24.33696174621582,
      "learning_rate": 9.007050528789659e-06,
      "loss": 2.2834,
      "step": 221
    },
    {
      "epoch": 0.17222653219550038,
      "grad_norm": 19.657947540283203,
      "learning_rate": 9.048178613396003e-06,
      "loss": 3.4539,
      "step": 222
    },
    {
      "epoch": 0.1730023273855702,
      "grad_norm": 22.255239486694336,
      "learning_rate": 9.08930669800235e-06,
      "loss": 2.7994,
      "step": 223
    },
    {
      "epoch": 0.17377812257564004,
      "grad_norm": 20.619884490966797,
      "learning_rate": 9.130434782608695e-06,
      "loss": 2.463,
      "step": 224
    },
    {
      "epoch": 0.17455391776570986,
      "grad_norm": 22.244462966918945,
      "learning_rate": 9.17156286721504e-06,
      "loss": 4.1749,
      "step": 225
    },
    {
      "epoch": 0.17532971295577968,
      "grad_norm": 25.1329402923584,
      "learning_rate": 9.212690951821385e-06,
      "loss": 3.7001,
      "step": 226
    },
    {
      "epoch": 0.1761055081458495,
      "grad_norm": 35.8182258605957,
      "learning_rate": 9.253819036427732e-06,
      "loss": 5.6003,
      "step": 227
    },
    {
      "epoch": 0.1768813033359193,
      "grad_norm": 33.197845458984375,
      "learning_rate": 9.294947121034076e-06,
      "loss": 5.5236,
      "step": 228
    },
    {
      "epoch": 0.17765709852598913,
      "grad_norm": 14.53373908996582,
      "learning_rate": 9.336075205640421e-06,
      "loss": 2.8411,
      "step": 229
    },
    {
      "epoch": 0.17843289371605897,
      "grad_norm": 8.925052642822266,
      "learning_rate": 9.377203290246768e-06,
      "loss": 0.3611,
      "step": 230
    },
    {
      "epoch": 0.1792086889061288,
      "grad_norm": 19.080123901367188,
      "learning_rate": 9.418331374853114e-06,
      "loss": 3.4145,
      "step": 231
    },
    {
      "epoch": 0.1799844840961986,
      "grad_norm": 16.67955780029297,
      "learning_rate": 9.459459459459459e-06,
      "loss": 2.7527,
      "step": 232
    },
    {
      "epoch": 0.18076027928626842,
      "grad_norm": 13.526026725769043,
      "learning_rate": 9.500587544065804e-06,
      "loss": 1.977,
      "step": 233
    },
    {
      "epoch": 0.18153607447633824,
      "grad_norm": 12.823989868164062,
      "learning_rate": 9.54171562867215e-06,
      "loss": 1.9694,
      "step": 234
    },
    {
      "epoch": 0.18231186966640806,
      "grad_norm": 14.984912872314453,
      "learning_rate": 9.582843713278495e-06,
      "loss": 2.4804,
      "step": 235
    },
    {
      "epoch": 0.1830876648564779,
      "grad_norm": 13.724047660827637,
      "learning_rate": 9.62397179788484e-06,
      "loss": 2.7869,
      "step": 236
    },
    {
      "epoch": 0.18386346004654772,
      "grad_norm": 14.626879692077637,
      "learning_rate": 9.665099882491187e-06,
      "loss": 2.0562,
      "step": 237
    },
    {
      "epoch": 0.18463925523661753,
      "grad_norm": 8.06078815460205,
      "learning_rate": 9.706227967097532e-06,
      "loss": 0.3609,
      "step": 238
    },
    {
      "epoch": 0.18541505042668735,
      "grad_norm": 13.897974014282227,
      "learning_rate": 9.747356051703878e-06,
      "loss": 1.9205,
      "step": 239
    },
    {
      "epoch": 0.18619084561675717,
      "grad_norm": 6.743955612182617,
      "learning_rate": 9.788484136310221e-06,
      "loss": 0.2964,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_Qnli-dev_cosine_accuracy": 0.62890625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8693021535873413,
      "eval_Qnli-dev_cosine_ap": 0.611781004288293,
      "eval_Qnli-dev_cosine_f1": 0.6366559485530547,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7878068685531616,
      "eval_Qnli-dev_cosine_precision": 0.5129533678756477,
      "eval_Qnli-dev_cosine_recall": 0.8389830508474576,
      "eval_Qnli-dev_dot_accuracy": 0.595703125,
      "eval_Qnli-dev_dot_accuracy_threshold": 521.8904418945312,
      "eval_Qnli-dev_dot_ap": 0.5496339935508336,
      "eval_Qnli-dev_dot_f1": 0.6397694524495677,
      "eval_Qnli-dev_dot_f1_threshold": 375.82940673828125,
      "eval_Qnli-dev_dot_precision": 0.4847161572052402,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.626953125,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.786832809448242,
      "eval_Qnli-dev_euclidean_ap": 0.616692733684346,
      "eval_Qnli-dev_euclidean_f1": 0.6368159203980099,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.11730670928955,
      "eval_Qnli-dev_euclidean_precision": 0.5231607629427792,
      "eval_Qnli-dev_euclidean_recall": 0.8135593220338984,
      "eval_Qnli-dev_manhattan_accuracy": 0.6171875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 198.48147583007812,
      "eval_Qnli-dev_manhattan_ap": 0.6210006336689851,
      "eval_Qnli-dev_manhattan_f1": 0.6374367622259697,
      "eval_Qnli-dev_manhattan_f1_threshold": 262.7891845703125,
      "eval_Qnli-dev_manhattan_precision": 0.5294117647058824,
      "eval_Qnli-dev_manhattan_recall": 0.8008474576271186,
      "eval_Qnli-dev_max_accuracy": 0.62890625,
      "eval_Qnli-dev_max_accuracy_threshold": 521.8904418945312,
      "eval_Qnli-dev_max_ap": 0.6210006336689851,
      "eval_Qnli-dev_max_f1": 0.6397694524495677,
      "eval_Qnli-dev_max_f1_threshold": 375.82940673828125,
      "eval_Qnli-dev_max_precision": 0.5294117647058824,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.6875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9714217782020569,
      "eval_allNLI-dev_cosine_ap": 0.5054463009748529,
      "eval_allNLI-dev_cosine_f1": 0.5534591194968553,
      "eval_allNLI-dev_cosine_f1_threshold": 0.891494631767273,
      "eval_allNLI-dev_cosine_precision": 0.4342105263157895,
      "eval_allNLI-dev_cosine_recall": 0.7630057803468208,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 697.1558837890625,
      "eval_allNLI-dev_dot_ap": 0.40155312352801564,
      "eval_allNLI-dev_dot_f1": 0.5088235294117648,
      "eval_allNLI-dev_dot_f1_threshold": 376.5243225097656,
      "eval_allNLI-dev_dot_precision": 0.34122287968441817,
      "eval_allNLI-dev_dot_recall": 1.0,
      "eval_allNLI-dev_euclidean_accuracy": 0.685546875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.3458075523376465,
      "eval_allNLI-dev_euclidean_ap": 0.5028194115939991,
      "eval_allNLI-dev_euclidean_f1": 0.5518590998043053,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.797416687011719,
      "eval_allNLI-dev_euclidean_precision": 0.4171597633136095,
      "eval_allNLI-dev_euclidean_recall": 0.815028901734104,
      "eval_allNLI-dev_manhattan_accuracy": 0.689453125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 145.72430419921875,
      "eval_allNLI-dev_manhattan_ap": 0.5074540422577104,
      "eval_allNLI-dev_manhattan_f1": 0.5382932166301969,
      "eval_allNLI-dev_manhattan_f1_threshold": 210.015625,
      "eval_allNLI-dev_manhattan_precision": 0.43309859154929575,
      "eval_allNLI-dev_manhattan_recall": 0.7109826589595376,
      "eval_allNLI-dev_max_accuracy": 0.689453125,
      "eval_allNLI-dev_max_accuracy_threshold": 697.1558837890625,
      "eval_allNLI-dev_max_ap": 0.5074540422577104,
      "eval_allNLI-dev_max_f1": 0.5534591194968553,
      "eval_allNLI-dev_max_f1_threshold": 376.5243225097656,
      "eval_allNLI-dev_max_precision": 0.4342105263157895,
      "eval_allNLI-dev_max_recall": 1.0,
      "eval_sequential_score": 0.6210006336689851,
      "eval_sts-test_pearson_cosine": 0.437261385872042,
      "eval_sts-test_pearson_dot": 0.27944802216402886,
      "eval_sts-test_pearson_euclidean": 0.46065093061659046,
      "eval_sts-test_pearson_manhattan": 0.4698077558920942,
      "eval_sts-test_pearson_max": 0.4698077558920942,
      "eval_sts-test_spearman_cosine": 0.5068103175719304,
      "eval_sts-test_spearman_dot": 0.28160415924837434,
      "eval_sts-test_spearman_euclidean": 0.4813224156515044,
      "eval_sts-test_spearman_manhattan": 0.4888016492165877,
      "eval_sts-test_spearman_max": 0.5068103175719304,
      "eval_vitaminc-pairs_loss": 3.8961689472198486,
      "eval_vitaminc-pairs_runtime": 5.4898,
      "eval_vitaminc-pairs_samples_per_second": 23.316,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_negation-triplets_loss": 3.9956982135772705,
      "eval_negation-triplets_runtime": 1.0718,
      "eval_negation-triplets_samples_per_second": 119.43,
      "eval_negation-triplets_steps_per_second": 1.866,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_scitail-pairs-pos_loss": 0.6250349283218384,
      "eval_scitail-pairs-pos_runtime": 1.2283,
      "eval_scitail-pairs-pos_samples_per_second": 104.211,
      "eval_scitail-pairs-pos_steps_per_second": 1.628,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_scitail-pairs-qa_loss": 0.8983888030052185,
      "eval_scitail-pairs-qa_runtime": 0.7728,
      "eval_scitail-pairs-qa_samples_per_second": 165.636,
      "eval_scitail-pairs-qa_steps_per_second": 2.588,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_xsum-pairs_loss": 2.681138038635254,
      "eval_xsum-pairs_runtime": 3.921,
      "eval_xsum-pairs_samples_per_second": 32.645,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_sciq_pairs_loss": 0.3189742863178253,
      "eval_sciq_pairs_runtime": 5.8916,
      "eval_sciq_pairs_samples_per_second": 21.726,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_qasc_pairs_loss": 2.76663875579834,
      "eval_qasc_pairs_runtime": 0.9119,
      "eval_qasc_pairs_samples_per_second": 140.374,
      "eval_qasc_pairs_steps_per_second": 2.193,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_openbookqa_pairs_loss": 4.003782749176025,
      "eval_openbookqa_pairs_runtime": 0.8645,
      "eval_openbookqa_pairs_samples_per_second": 148.058,
      "eval_openbookqa_pairs_steps_per_second": 2.313,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_msmarco_pairs_loss": 3.789357900619507,
      "eval_msmarco_pairs_runtime": 1.9837,
      "eval_msmarco_pairs_samples_per_second": 64.525,
      "eval_msmarco_pairs_steps_per_second": 1.008,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_nq_pairs_loss": 3.925625801086426,
      "eval_nq_pairs_runtime": 3.3218,
      "eval_nq_pairs_samples_per_second": 38.534,
      "eval_nq_pairs_steps_per_second": 0.602,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_trivia_pairs_loss": 3.9500904083251953,
      "eval_trivia_pairs_runtime": 4.4861,
      "eval_trivia_pairs_samples_per_second": 28.533,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_gooaq_pairs_loss": 3.2876720428466797,
      "eval_gooaq_pairs_runtime": 1.4821,
      "eval_gooaq_pairs_samples_per_second": 86.362,
      "eval_gooaq_pairs_steps_per_second": 1.349,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_paws-pos_loss": 0.12235681712627411,
      "eval_paws-pos_runtime": 1.0363,
      "eval_paws-pos_samples_per_second": 123.516,
      "eval_paws-pos_steps_per_second": 1.93,
      "step": 240
    },
    {
      "epoch": 0.18619084561675717,
      "eval_global_dataset_loss": 1.9579764604568481,
      "eval_global_dataset_runtime": 19.4,
      "eval_global_dataset_samples_per_second": 21.443,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 240
    },
    {
      "epoch": 0.186966640806827,
      "grad_norm": 17.613515853881836,
      "learning_rate": 9.829612220916568e-06,
      "loss": 3.2402,
      "step": 241
    },
    {
      "epoch": 0.18774243599689683,
      "grad_norm": 19.704069137573242,
      "learning_rate": 9.870740305522913e-06,
      "loss": 3.1076,
      "step": 242
    },
    {
      "epoch": 0.18851823118696664,
      "grad_norm": 14.683489799499512,
      "learning_rate": 9.911868390129259e-06,
      "loss": 1.8656,
      "step": 243
    },
    {
      "epoch": 0.18929402637703646,
      "grad_norm": 15.879508018493652,
      "learning_rate": 9.952996474735606e-06,
      "loss": 2.7912,
      "step": 244
    },
    {
      "epoch": 0.19006982156710628,
      "grad_norm": 5.585937023162842,
      "learning_rate": 9.99412455934195e-06,
      "loss": 0.2569,
      "step": 245
    },
    {
      "epoch": 0.1908456167571761,
      "grad_norm": 18.365917205810547,
      "learning_rate": 1.0035252643948295e-05,
      "loss": 2.1095,
      "step": 246
    },
    {
      "epoch": 0.19162141194724594,
      "grad_norm": 14.385225296020508,
      "learning_rate": 1.007638072855464e-05,
      "loss": 1.5261,
      "step": 247
    },
    {
      "epoch": 0.19239720713731576,
      "grad_norm": 23.97905921936035,
      "learning_rate": 1.0117508813160987e-05,
      "loss": 3.4551,
      "step": 248
    },
    {
      "epoch": 0.19317300232738557,
      "grad_norm": 15.02582836151123,
      "learning_rate": 1.0158636897767332e-05,
      "loss": 2.2465,
      "step": 249
    },
    {
      "epoch": 0.1939487975174554,
      "grad_norm": 32.1656494140625,
      "learning_rate": 1.0199764982373677e-05,
      "loss": 4.7511,
      "step": 250
    },
    {
      "epoch": 0.1947245927075252,
      "grad_norm": 22.766891479492188,
      "learning_rate": 1.0240893066980021e-05,
      "loss": 2.9648,
      "step": 251
    },
    {
      "epoch": 0.19550038789759502,
      "grad_norm": 22.01688575744629,
      "learning_rate": 1.0282021151586368e-05,
      "loss": 3.4702,
      "step": 252
    },
    {
      "epoch": 0.19627618308766487,
      "grad_norm": 19.137022018432617,
      "learning_rate": 1.0323149236192713e-05,
      "loss": 2.2448,
      "step": 253
    },
    {
      "epoch": 0.19705197827773469,
      "grad_norm": 26.455888748168945,
      "learning_rate": 1.0364277320799059e-05,
      "loss": 4.5872,
      "step": 254
    },
    {
      "epoch": 0.1978277734678045,
      "grad_norm": 15.777259826660156,
      "learning_rate": 1.0405405405405406e-05,
      "loss": 1.8122,
      "step": 255
    },
    {
      "epoch": 0.19860356865787432,
      "grad_norm": 17.67413902282715,
      "learning_rate": 1.0446533490011751e-05,
      "loss": 2.8551,
      "step": 256
    },
    {
      "epoch": 0.19937936384794414,
      "grad_norm": 17.045608520507812,
      "learning_rate": 1.0487661574618094e-05,
      "loss": 2.6086,
      "step": 257
    },
    {
      "epoch": 0.20015515903801395,
      "grad_norm": 14.350496292114258,
      "learning_rate": 1.052878965922444e-05,
      "loss": 1.232,
      "step": 258
    },
    {
      "epoch": 0.2009309542280838,
      "grad_norm": 18.945785522460938,
      "learning_rate": 1.0569917743830787e-05,
      "loss": 2.0938,
      "step": 259
    },
    {
      "epoch": 0.2017067494181536,
      "grad_norm": 21.14448356628418,
      "learning_rate": 1.0611045828437132e-05,
      "loss": 3.2889,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_Qnli-dev_cosine_accuracy": 0.62890625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8959039449691772,
      "eval_Qnli-dev_cosine_ap": 0.6317320089748972,
      "eval_Qnli-dev_cosine_f1": 0.6438569206842925,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7514594793319702,
      "eval_Qnli-dev_cosine_precision": 0.5085995085995086,
      "eval_Qnli-dev_cosine_recall": 0.8771186440677966,
      "eval_Qnli-dev_dot_accuracy": 0.615234375,
      "eval_Qnli-dev_dot_accuracy_threshold": 501.94647216796875,
      "eval_Qnli-dev_dot_ap": 0.570773669147705,
      "eval_Qnli-dev_dot_f1": 0.6416184971098267,
      "eval_Qnli-dev_dot_f1_threshold": 352.76312255859375,
      "eval_Qnli-dev_dot_precision": 0.4868421052631579,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.62890625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.027973175048828,
      "eval_Qnli-dev_euclidean_ap": 0.6338956796033433,
      "eval_Qnli-dev_euclidean_f1": 0.6456692913385828,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.208221435546875,
      "eval_Qnli-dev_euclidean_precision": 0.5137844611528822,
      "eval_Qnli-dev_euclidean_recall": 0.8686440677966102,
      "eval_Qnli-dev_manhattan_accuracy": 0.6171875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 177.6362762451172,
      "eval_Qnli-dev_manhattan_ap": 0.635486065397315,
      "eval_Qnli-dev_manhattan_f1": 0.6525037936267072,
      "eval_Qnli-dev_manhattan_f1_threshold": 298.76824951171875,
      "eval_Qnli-dev_manhattan_precision": 0.508274231678487,
      "eval_Qnli-dev_manhattan_recall": 0.9110169491525424,
      "eval_Qnli-dev_max_accuracy": 0.62890625,
      "eval_Qnli-dev_max_accuracy_threshold": 501.94647216796875,
      "eval_Qnli-dev_max_ap": 0.635486065397315,
      "eval_Qnli-dev_max_f1": 0.6525037936267072,
      "eval_Qnli-dev_max_f1_threshold": 352.76312255859375,
      "eval_Qnli-dev_max_precision": 0.5137844611528822,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.693359375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9633911848068237,
      "eval_allNLI-dev_cosine_ap": 0.5232737415129294,
      "eval_allNLI-dev_cosine_f1": 0.5643153526970954,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8676438927650452,
      "eval_allNLI-dev_cosine_precision": 0.4401294498381877,
      "eval_allNLI-dev_cosine_recall": 0.7861271676300579,
      "eval_allNLI-dev_dot_accuracy": 0.67578125,
      "eval_allNLI-dev_dot_accuracy_threshold": 628.2297973632812,
      "eval_allNLI-dev_dot_ap": 0.41885658826681826,
      "eval_allNLI-dev_dot_f1": 0.5112781954887218,
      "eval_allNLI-dev_dot_f1_threshold": 387.4698181152344,
      "eval_allNLI-dev_dot_precision": 0.34552845528455284,
      "eval_allNLI-dev_dot_recall": 0.9826589595375722,
      "eval_allNLI-dev_euclidean_accuracy": 0.69140625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 6.63711404800415,
      "eval_allNLI-dev_euclidean_ap": 0.5165862059273876,
      "eval_allNLI-dev_euclidean_f1": 0.5619469026548674,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.216785430908203,
      "eval_allNLI-dev_euclidean_precision": 0.4551971326164875,
      "eval_allNLI-dev_euclidean_recall": 0.7341040462427746,
      "eval_allNLI-dev_manhattan_accuracy": 0.689453125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 113.34144592285156,
      "eval_allNLI-dev_manhattan_ap": 0.514531606503361,
      "eval_allNLI-dev_manhattan_f1": 0.5508982035928144,
      "eval_allNLI-dev_manhattan_f1_threshold": 228.50057983398438,
      "eval_allNLI-dev_manhattan_precision": 0.42073170731707316,
      "eval_allNLI-dev_manhattan_recall": 0.7976878612716763,
      "eval_allNLI-dev_max_accuracy": 0.693359375,
      "eval_allNLI-dev_max_accuracy_threshold": 628.2297973632812,
      "eval_allNLI-dev_max_ap": 0.5232737415129294,
      "eval_allNLI-dev_max_f1": 0.5643153526970954,
      "eval_allNLI-dev_max_f1_threshold": 387.4698181152344,
      "eval_allNLI-dev_max_precision": 0.4551971326164875,
      "eval_allNLI-dev_max_recall": 0.9826589595375722,
      "eval_sequential_score": 0.635486065397315,
      "eval_sts-test_pearson_cosine": 0.5473549878890289,
      "eval_sts-test_pearson_dot": 0.4025186478072074,
      "eval_sts-test_pearson_euclidean": 0.5655101153873763,
      "eval_sts-test_pearson_manhattan": 0.5691444231082895,
      "eval_sts-test_pearson_max": 0.5691444231082895,
      "eval_sts-test_spearman_cosine": 0.6075610251541963,
      "eval_sts-test_spearman_dot": 0.3974190005719933,
      "eval_sts-test_spearman_euclidean": 0.583691060338115,
      "eval_sts-test_spearman_manhattan": 0.5868551535235325,
      "eval_sts-test_spearman_max": 0.6075610251541963,
      "eval_vitaminc-pairs_loss": 4.039915561676025,
      "eval_vitaminc-pairs_runtime": 5.4967,
      "eval_vitaminc-pairs_samples_per_second": 23.287,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_negation-triplets_loss": 3.594820976257324,
      "eval_negation-triplets_runtime": 1.1206,
      "eval_negation-triplets_samples_per_second": 114.228,
      "eval_negation-triplets_steps_per_second": 1.785,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_scitail-pairs-pos_loss": 0.4375041425228119,
      "eval_scitail-pairs-pos_runtime": 1.2948,
      "eval_scitail-pairs-pos_samples_per_second": 98.861,
      "eval_scitail-pairs-pos_steps_per_second": 1.545,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_scitail-pairs-qa_loss": 0.6644041538238525,
      "eval_scitail-pairs-qa_runtime": 0.7832,
      "eval_scitail-pairs-qa_samples_per_second": 163.441,
      "eval_scitail-pairs-qa_steps_per_second": 2.554,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_xsum-pairs_loss": 2.3631696701049805,
      "eval_xsum-pairs_runtime": 3.941,
      "eval_xsum-pairs_samples_per_second": 32.479,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_sciq_pairs_loss": 0.32018786668777466,
      "eval_sciq_pairs_runtime": 5.9413,
      "eval_sciq_pairs_samples_per_second": 21.544,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_qasc_pairs_loss": 2.350424289703369,
      "eval_qasc_pairs_runtime": 0.9926,
      "eval_qasc_pairs_samples_per_second": 128.957,
      "eval_qasc_pairs_steps_per_second": 2.015,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_openbookqa_pairs_loss": 3.6394641399383545,
      "eval_openbookqa_pairs_runtime": 0.8846,
      "eval_openbookqa_pairs_samples_per_second": 144.694,
      "eval_openbookqa_pairs_steps_per_second": 2.261,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_msmarco_pairs_loss": 3.4378509521484375,
      "eval_msmarco_pairs_runtime": 1.99,
      "eval_msmarco_pairs_samples_per_second": 64.32,
      "eval_msmarco_pairs_steps_per_second": 1.005,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_nq_pairs_loss": 3.741243362426758,
      "eval_nq_pairs_runtime": 3.3459,
      "eval_nq_pairs_samples_per_second": 38.256,
      "eval_nq_pairs_steps_per_second": 0.598,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_trivia_pairs_loss": 3.907733201980591,
      "eval_trivia_pairs_runtime": 4.4944,
      "eval_trivia_pairs_samples_per_second": 28.48,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_gooaq_pairs_loss": 3.0075690746307373,
      "eval_gooaq_pairs_runtime": 1.5055,
      "eval_gooaq_pairs_samples_per_second": 85.024,
      "eval_gooaq_pairs_steps_per_second": 1.328,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_paws-pos_loss": 0.10642223060131073,
      "eval_paws-pos_runtime": 1.0293,
      "eval_paws-pos_samples_per_second": 124.359,
      "eval_paws-pos_steps_per_second": 1.943,
      "step": 260
    },
    {
      "epoch": 0.2017067494181536,
      "eval_global_dataset_loss": 1.825014591217041,
      "eval_global_dataset_runtime": 19.4234,
      "eval_global_dataset_samples_per_second": 21.417,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 260
    },
    {
      "epoch": 0.20248254460822343,
      "grad_norm": 15.610722541809082,
      "learning_rate": 1.0652173913043477e-05,
      "loss": 1.776,
      "step": 261
    },
    {
      "epoch": 0.20325833979829325,
      "grad_norm": 15.1345853805542,
      "learning_rate": 1.0693301997649823e-05,
      "loss": 1.7895,
      "step": 262
    },
    {
      "epoch": 0.20403413498836306,
      "grad_norm": 26.102519989013672,
      "learning_rate": 1.0734430082256168e-05,
      "loss": 4.0261,
      "step": 263
    },
    {
      "epoch": 0.20480993017843288,
      "grad_norm": 16.856807708740234,
      "learning_rate": 1.0775558166862513e-05,
      "loss": 2.254,
      "step": 264
    },
    {
      "epoch": 0.20558572536850273,
      "grad_norm": 25.3414363861084,
      "learning_rate": 1.0816686251468858e-05,
      "loss": 3.6334,
      "step": 265
    },
    {
      "epoch": 0.20636152055857254,
      "grad_norm": 24.477399826049805,
      "learning_rate": 1.0857814336075205e-05,
      "loss": 4.2001,
      "step": 266
    },
    {
      "epoch": 0.20713731574864236,
      "grad_norm": 14.106359481811523,
      "learning_rate": 1.089894242068155e-05,
      "loss": 1.7653,
      "step": 267
    },
    {
      "epoch": 0.20791311093871218,
      "grad_norm": 17.06173324584961,
      "learning_rate": 1.0940070505287894e-05,
      "loss": 3.1158,
      "step": 268
    },
    {
      "epoch": 0.208688906128782,
      "grad_norm": 5.879356384277344,
      "learning_rate": 1.0981198589894241e-05,
      "loss": 0.2744,
      "step": 269
    },
    {
      "epoch": 0.20946470131885184,
      "grad_norm": 15.685729026794434,
      "learning_rate": 1.1022326674500587e-05,
      "loss": 2.6071,
      "step": 270
    },
    {
      "epoch": 0.21024049650892165,
      "grad_norm": 18.253646850585938,
      "learning_rate": 1.1063454759106932e-05,
      "loss": 2.8655,
      "step": 271
    },
    {
      "epoch": 0.21101629169899147,
      "grad_norm": 12.888394355773926,
      "learning_rate": 1.1104582843713279e-05,
      "loss": 1.5014,
      "step": 272
    },
    {
      "epoch": 0.2117920868890613,
      "grad_norm": 13.16964054107666,
      "learning_rate": 1.1145710928319624e-05,
      "loss": 2.5295,
      "step": 273
    },
    {
      "epoch": 0.2125678820791311,
      "grad_norm": 25.27763557434082,
      "learning_rate": 1.1186839012925968e-05,
      "loss": 3.8334,
      "step": 274
    },
    {
      "epoch": 0.21334367726920092,
      "grad_norm": 17.442773818969727,
      "learning_rate": 1.1227967097532313e-05,
      "loss": 2.7213,
      "step": 275
    },
    {
      "epoch": 0.21411947245927077,
      "grad_norm": 13.96842098236084,
      "learning_rate": 1.126909518213866e-05,
      "loss": 1.5855,
      "step": 276
    },
    {
      "epoch": 0.21489526764934058,
      "grad_norm": 15.856791496276855,
      "learning_rate": 1.1310223266745005e-05,
      "loss": 1.6089,
      "step": 277
    },
    {
      "epoch": 0.2156710628394104,
      "grad_norm": 17.355192184448242,
      "learning_rate": 1.135135135135135e-05,
      "loss": 3.5855,
      "step": 278
    },
    {
      "epoch": 0.21644685802948022,
      "grad_norm": 22.566591262817383,
      "learning_rate": 1.1392479435957698e-05,
      "loss": 3.4454,
      "step": 279
    },
    {
      "epoch": 0.21722265321955003,
      "grad_norm": 11.724306106567383,
      "learning_rate": 1.1433607520564041e-05,
      "loss": 1.7671,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_Qnli-dev_cosine_accuracy": 0.642578125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8725194931030273,
      "eval_Qnli-dev_cosine_ap": 0.6480191892664191,
      "eval_Qnli-dev_cosine_f1": 0.6541471048513302,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7736532688140869,
      "eval_Qnli-dev_cosine_precision": 0.5186104218362283,
      "eval_Qnli-dev_cosine_recall": 0.885593220338983,
      "eval_Qnli-dev_dot_accuracy": 0.623046875,
      "eval_Qnli-dev_dot_accuracy_threshold": 561.6754150390625,
      "eval_Qnli-dev_dot_ap": 0.594531019849786,
      "eval_Qnli-dev_dot_f1": 0.6424418604651162,
      "eval_Qnli-dev_dot_f1_threshold": 397.423095703125,
      "eval_Qnli-dev_dot_precision": 0.4889380530973451,
      "eval_Qnli-dev_dot_recall": 0.9364406779661016,
      "eval_Qnli-dev_euclidean_accuracy": 0.63671875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.079384803771973,
      "eval_Qnli-dev_euclidean_ap": 0.650209205985763,
      "eval_Qnli-dev_euclidean_f1": 0.6486486486486487,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.04608154296875,
      "eval_Qnli-dev_euclidean_precision": 0.5190839694656488,
      "eval_Qnli-dev_euclidean_recall": 0.864406779661017,
      "eval_Qnli-dev_manhattan_accuracy": 0.634765625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 235.5088653564453,
      "eval_Qnli-dev_manhattan_ap": 0.6486808711899925,
      "eval_Qnli-dev_manhattan_f1": 0.6571879936808848,
      "eval_Qnli-dev_manhattan_f1_threshold": 284.24969482421875,
      "eval_Qnli-dev_manhattan_precision": 0.5239294710327456,
      "eval_Qnli-dev_manhattan_recall": 0.8813559322033898,
      "eval_Qnli-dev_max_accuracy": 0.642578125,
      "eval_Qnli-dev_max_accuracy_threshold": 561.6754150390625,
      "eval_Qnli-dev_max_ap": 0.650209205985763,
      "eval_Qnli-dev_max_f1": 0.6571879936808848,
      "eval_Qnli-dev_max_f1_threshold": 397.423095703125,
      "eval_Qnli-dev_max_precision": 0.5239294710327456,
      "eval_Qnli-dev_max_recall": 0.9364406779661016,
      "eval_allNLI-dev_cosine_accuracy": 0.701171875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.943870484828949,
      "eval_allNLI-dev_cosine_ap": 0.5396954038256323,
      "eval_allNLI-dev_cosine_f1": 0.5720620842572062,
      "eval_allNLI-dev_cosine_f1_threshold": 0.875219464302063,
      "eval_allNLI-dev_cosine_precision": 0.46402877697841727,
      "eval_allNLI-dev_cosine_recall": 0.7456647398843931,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 625.1502685546875,
      "eval_allNLI-dev_dot_ap": 0.3989484021171416,
      "eval_allNLI-dev_dot_f1": 0.5117004680187207,
      "eval_allNLI-dev_dot_f1_threshold": 430.39263916015625,
      "eval_allNLI-dev_dot_precision": 0.3504273504273504,
      "eval_allNLI-dev_dot_recall": 0.9479768786127167,
      "eval_allNLI-dev_euclidean_accuracy": 0.69921875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.466145515441895,
      "eval_allNLI-dev_euclidean_ap": 0.5366056492160509,
      "eval_allNLI-dev_euclidean_f1": 0.5630630630630631,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.355962753295898,
      "eval_allNLI-dev_euclidean_precision": 0.4612546125461255,
      "eval_allNLI-dev_euclidean_recall": 0.7225433526011561,
      "eval_allNLI-dev_manhattan_accuracy": 0.69140625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 146.6441650390625,
      "eval_allNLI-dev_manhattan_ap": 0.5328335627356967,
      "eval_allNLI-dev_manhattan_f1": 0.5636743215031316,
      "eval_allNLI-dev_manhattan_f1_threshold": 231.57371520996094,
      "eval_allNLI-dev_manhattan_precision": 0.4411764705882353,
      "eval_allNLI-dev_manhattan_recall": 0.7803468208092486,
      "eval_allNLI-dev_max_accuracy": 0.701171875,
      "eval_allNLI-dev_max_accuracy_threshold": 625.1502685546875,
      "eval_allNLI-dev_max_ap": 0.5396954038256323,
      "eval_allNLI-dev_max_f1": 0.5720620842572062,
      "eval_allNLI-dev_max_f1_threshold": 430.39263916015625,
      "eval_allNLI-dev_max_precision": 0.46402877697841727,
      "eval_allNLI-dev_max_recall": 0.9479768786127167,
      "eval_sequential_score": 0.650209205985763,
      "eval_sts-test_pearson_cosine": 0.6252071183660979,
      "eval_sts-test_pearson_dot": 0.4643201935347477,
      "eval_sts-test_pearson_euclidean": 0.6463557760014038,
      "eval_sts-test_pearson_manhattan": 0.6502994079294852,
      "eval_sts-test_pearson_max": 0.6502994079294852,
      "eval_sts-test_spearman_cosine": 0.6841740211234761,
      "eval_sts-test_spearman_dot": 0.46714038290647875,
      "eval_sts-test_spearman_euclidean": 0.6609735799290716,
      "eval_sts-test_spearman_manhattan": 0.6662960264513962,
      "eval_sts-test_spearman_max": 0.6841740211234761,
      "eval_vitaminc-pairs_loss": 3.895996570587158,
      "eval_vitaminc-pairs_runtime": 5.474,
      "eval_vitaminc-pairs_samples_per_second": 23.383,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_negation-triplets_loss": 3.2737627029418945,
      "eval_negation-triplets_runtime": 1.0689,
      "eval_negation-triplets_samples_per_second": 119.754,
      "eval_negation-triplets_steps_per_second": 1.871,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_scitail-pairs-pos_loss": 0.3453359305858612,
      "eval_scitail-pairs-pos_runtime": 1.2021,
      "eval_scitail-pairs-pos_samples_per_second": 106.484,
      "eval_scitail-pairs-pos_steps_per_second": 1.664,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_scitail-pairs-qa_loss": 0.6447652578353882,
      "eval_scitail-pairs-qa_runtime": 0.764,
      "eval_scitail-pairs-qa_samples_per_second": 167.533,
      "eval_scitail-pairs-qa_steps_per_second": 2.618,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_xsum-pairs_loss": 1.9839868545532227,
      "eval_xsum-pairs_runtime": 3.9145,
      "eval_xsum-pairs_samples_per_second": 32.699,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_sciq_pairs_loss": 0.27117013931274414,
      "eval_sciq_pairs_runtime": 5.8521,
      "eval_sciq_pairs_samples_per_second": 21.872,
      "eval_sciq_pairs_steps_per_second": 0.342,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_qasc_pairs_loss": 2.157790422439575,
      "eval_qasc_pairs_runtime": 0.9131,
      "eval_qasc_pairs_samples_per_second": 140.189,
      "eval_qasc_pairs_steps_per_second": 2.19,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_openbookqa_pairs_loss": 3.370903253555298,
      "eval_openbookqa_pairs_runtime": 0.855,
      "eval_openbookqa_pairs_samples_per_second": 149.715,
      "eval_openbookqa_pairs_steps_per_second": 2.339,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_msmarco_pairs_loss": 2.6094882488250732,
      "eval_msmarco_pairs_runtime": 1.9593,
      "eval_msmarco_pairs_samples_per_second": 65.33,
      "eval_msmarco_pairs_steps_per_second": 1.021,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_nq_pairs_loss": 2.909904718399048,
      "eval_nq_pairs_runtime": 3.3195,
      "eval_nq_pairs_samples_per_second": 38.56,
      "eval_nq_pairs_steps_per_second": 0.602,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_trivia_pairs_loss": 2.8713767528533936,
      "eval_trivia_pairs_runtime": 4.4956,
      "eval_trivia_pairs_samples_per_second": 28.472,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_gooaq_pairs_loss": 2.3393373489379883,
      "eval_gooaq_pairs_runtime": 1.4723,
      "eval_gooaq_pairs_samples_per_second": 86.941,
      "eval_gooaq_pairs_steps_per_second": 1.358,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_paws-pos_loss": 0.11137357354164124,
      "eval_paws-pos_runtime": 1.0289,
      "eval_paws-pos_samples_per_second": 124.404,
      "eval_paws-pos_steps_per_second": 1.944,
      "step": 280
    },
    {
      "epoch": 0.21722265321955003,
      "eval_global_dataset_loss": 1.5072476863861084,
      "eval_global_dataset_runtime": 19.4173,
      "eval_global_dataset_samples_per_second": 21.424,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 280
    },
    {
      "epoch": 0.21799844840961985,
      "grad_norm": 15.085926055908203,
      "learning_rate": 1.1474735605170386e-05,
      "loss": 2.5975,
      "step": 281
    },
    {
      "epoch": 0.2187742435996897,
      "grad_norm": 13.402788162231445,
      "learning_rate": 1.1515863689776732e-05,
      "loss": 0.9452,
      "step": 282
    },
    {
      "epoch": 0.2195500387897595,
      "grad_norm": 14.641647338867188,
      "learning_rate": 1.1556991774383079e-05,
      "loss": 2.2051,
      "step": 283
    },
    {
      "epoch": 0.22032583397982933,
      "grad_norm": 5.166534900665283,
      "learning_rate": 1.1598119858989424e-05,
      "loss": 0.2627,
      "step": 284
    },
    {
      "epoch": 0.22110162916989914,
      "grad_norm": 16.76167106628418,
      "learning_rate": 1.1639247943595768e-05,
      "loss": 1.7162,
      "step": 285
    },
    {
      "epoch": 0.22187742435996896,
      "grad_norm": 14.418363571166992,
      "learning_rate": 1.1680376028202113e-05,
      "loss": 1.3192,
      "step": 286
    },
    {
      "epoch": 0.22265321955003878,
      "grad_norm": 24.48800277709961,
      "learning_rate": 1.172150411280846e-05,
      "loss": 3.5457,
      "step": 287
    },
    {
      "epoch": 0.22342901474010862,
      "grad_norm": 15.297579765319824,
      "learning_rate": 1.1762632197414805e-05,
      "loss": 1.3446,
      "step": 288
    },
    {
      "epoch": 0.22420480993017844,
      "grad_norm": 23.22272491455078,
      "learning_rate": 1.180376028202115e-05,
      "loss": 2.9348,
      "step": 289
    },
    {
      "epoch": 0.22498060512024826,
      "grad_norm": 17.5606632232666,
      "learning_rate": 1.1844888366627497e-05,
      "loss": 1.6742,
      "step": 290
    },
    {
      "epoch": 0.22575640031031807,
      "grad_norm": 15.780293464660645,
      "learning_rate": 1.1886016451233841e-05,
      "loss": 1.5353,
      "step": 291
    },
    {
      "epoch": 0.2265321955003879,
      "grad_norm": 13.763825416564941,
      "learning_rate": 1.1927144535840186e-05,
      "loss": 1.1798,
      "step": 292
    },
    {
      "epoch": 0.2273079906904577,
      "grad_norm": 16.144515991210938,
      "learning_rate": 1.1968272620446532e-05,
      "loss": 1.3208,
      "step": 293
    },
    {
      "epoch": 0.22808378588052755,
      "grad_norm": 14.696866035461426,
      "learning_rate": 1.2009400705052879e-05,
      "loss": 1.0856,
      "step": 294
    },
    {
      "epoch": 0.22885958107059737,
      "grad_norm": 20.401079177856445,
      "learning_rate": 1.2050528789659224e-05,
      "loss": 2.5945,
      "step": 295
    },
    {
      "epoch": 0.22963537626066718,
      "grad_norm": 14.700536727905273,
      "learning_rate": 1.209165687426557e-05,
      "loss": 1.2534,
      "step": 296
    },
    {
      "epoch": 0.230411171450737,
      "grad_norm": 29.061100006103516,
      "learning_rate": 1.2132784958871913e-05,
      "loss": 4.5888,
      "step": 297
    },
    {
      "epoch": 0.23118696664080682,
      "grad_norm": 14.214822769165039,
      "learning_rate": 1.217391304347826e-05,
      "loss": 1.5575,
      "step": 298
    },
    {
      "epoch": 0.23196276183087663,
      "grad_norm": 13.572636604309082,
      "learning_rate": 1.2215041128084605e-05,
      "loss": 1.9698,
      "step": 299
    },
    {
      "epoch": 0.23273855702094648,
      "grad_norm": 17.725801467895508,
      "learning_rate": 1.225616921269095e-05,
      "loss": 2.5515,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_Qnli-dev_cosine_accuracy": 0.646484375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.895124077796936,
      "eval_Qnli-dev_cosine_ap": 0.6528783052084683,
      "eval_Qnli-dev_cosine_f1": 0.6590909090909091,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7926325798034668,
      "eval_Qnli-dev_cosine_precision": 0.5342105263157895,
      "eval_Qnli-dev_cosine_recall": 0.8601694915254238,
      "eval_Qnli-dev_dot_accuracy": 0.619140625,
      "eval_Qnli-dev_dot_accuracy_threshold": 549.4300537109375,
      "eval_Qnli-dev_dot_ap": 0.5900595040342307,
      "eval_Qnli-dev_dot_f1": 0.6406926406926408,
      "eval_Qnli-dev_dot_f1_threshold": 392.31390380859375,
      "eval_Qnli-dev_dot_precision": 0.48577680525164113,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.64453125,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.800490379333496,
      "eval_Qnli-dev_euclidean_ap": 0.6558463098189781,
      "eval_Qnli-dev_euclidean_f1": 0.6517189835575486,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.142818450927734,
      "eval_Qnli-dev_euclidean_precision": 0.5034642032332564,
      "eval_Qnli-dev_euclidean_recall": 0.923728813559322,
      "eval_Qnli-dev_manhattan_accuracy": 0.634765625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 238.0390625,
      "eval_Qnli-dev_manhattan_ap": 0.654006014265549,
      "eval_Qnli-dev_manhattan_f1": 0.6537313432835821,
      "eval_Qnli-dev_manhattan_f1_threshold": 303.4346618652344,
      "eval_Qnli-dev_manhattan_precision": 0.5046082949308756,
      "eval_Qnli-dev_manhattan_recall": 0.9279661016949152,
      "eval_Qnli-dev_max_accuracy": 0.646484375,
      "eval_Qnli-dev_max_accuracy_threshold": 549.4300537109375,
      "eval_Qnli-dev_max_ap": 0.6558463098189781,
      "eval_Qnli-dev_max_f1": 0.6590909090909091,
      "eval_Qnli-dev_max_f1_threshold": 392.31390380859375,
      "eval_Qnli-dev_max_precision": 0.5342105263157895,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.932201623916626,
      "eval_allNLI-dev_cosine_ap": 0.5579356554444865,
      "eval_allNLI-dev_cosine_f1": 0.5611814345991561,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8481569290161133,
      "eval_allNLI-dev_cosine_precision": 0.4418604651162791,
      "eval_allNLI-dev_cosine_recall": 0.7687861271676301,
      "eval_allNLI-dev_dot_accuracy": 0.66796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 608.14404296875,
      "eval_allNLI-dev_dot_ap": 0.4095525177799477,
      "eval_allNLI-dev_dot_f1": 0.5193199381761978,
      "eval_allNLI-dev_dot_f1_threshold": 398.32855224609375,
      "eval_allNLI-dev_dot_precision": 0.35443037974683544,
      "eval_allNLI-dev_dot_recall": 0.9710982658959537,
      "eval_allNLI-dev_euclidean_accuracy": 0.705078125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.391706466674805,
      "eval_allNLI-dev_euclidean_ap": 0.552362196578927,
      "eval_allNLI-dev_euclidean_f1": 0.5685483870967741,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.739648818969727,
      "eval_allNLI-dev_euclidean_precision": 0.43653250773993807,
      "eval_allNLI-dev_euclidean_recall": 0.815028901734104,
      "eval_allNLI-dev_manhattan_accuracy": 0.703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 178.74974060058594,
      "eval_allNLI-dev_manhattan_ap": 0.5496116812305261,
      "eval_allNLI-dev_manhattan_f1": 0.576271186440678,
      "eval_allNLI-dev_manhattan_f1_threshold": 236.75367736816406,
      "eval_allNLI-dev_manhattan_precision": 0.45484949832775917,
      "eval_allNLI-dev_manhattan_recall": 0.7861271676300579,
      "eval_allNLI-dev_max_accuracy": 0.705078125,
      "eval_allNLI-dev_max_accuracy_threshold": 608.14404296875,
      "eval_allNLI-dev_max_ap": 0.5579356554444865,
      "eval_allNLI-dev_max_f1": 0.576271186440678,
      "eval_allNLI-dev_max_f1_threshold": 398.32855224609375,
      "eval_allNLI-dev_max_precision": 0.45484949832775917,
      "eval_allNLI-dev_max_recall": 0.9710982658959537,
      "eval_sequential_score": 0.6558463098189781,
      "eval_sts-test_pearson_cosine": 0.6778653196849711,
      "eval_sts-test_pearson_dot": 0.5256481184350303,
      "eval_sts-test_pearson_euclidean": 0.7047971077534723,
      "eval_sts-test_pearson_manhattan": 0.7076251525623551,
      "eval_sts-test_pearson_max": 0.7076251525623551,
      "eval_sts-test_spearman_cosine": 0.7378726259611652,
      "eval_sts-test_spearman_dot": 0.5280127939502546,
      "eval_sts-test_spearman_euclidean": 0.7186699492006384,
      "eval_sts-test_spearman_manhattan": 0.7217660204687409,
      "eval_sts-test_spearman_max": 0.7378726259611652,
      "eval_vitaminc-pairs_loss": 3.769603967666626,
      "eval_vitaminc-pairs_runtime": 5.507,
      "eval_vitaminc-pairs_samples_per_second": 23.243,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_negation-triplets_loss": 3.0029027462005615,
      "eval_negation-triplets_runtime": 1.0811,
      "eval_negation-triplets_samples_per_second": 118.398,
      "eval_negation-triplets_steps_per_second": 1.85,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_scitail-pairs-pos_loss": 0.2898590862751007,
      "eval_scitail-pairs-pos_runtime": 1.3081,
      "eval_scitail-pairs-pos_samples_per_second": 97.854,
      "eval_scitail-pairs-pos_steps_per_second": 1.529,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_scitail-pairs-qa_loss": 0.48321533203125,
      "eval_scitail-pairs-qa_runtime": 0.8138,
      "eval_scitail-pairs-qa_samples_per_second": 157.278,
      "eval_scitail-pairs-qa_steps_per_second": 2.457,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_xsum-pairs_loss": 1.8343725204467773,
      "eval_xsum-pairs_runtime": 3.9405,
      "eval_xsum-pairs_samples_per_second": 32.483,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_sciq_pairs_loss": 0.22236409783363342,
      "eval_sciq_pairs_runtime": 5.8846,
      "eval_sciq_pairs_samples_per_second": 21.752,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_qasc_pairs_loss": 2.026122808456421,
      "eval_qasc_pairs_runtime": 0.9092,
      "eval_qasc_pairs_samples_per_second": 140.781,
      "eval_qasc_pairs_steps_per_second": 2.2,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_openbookqa_pairs_loss": 3.074580669403076,
      "eval_openbookqa_pairs_runtime": 0.8609,
      "eval_openbookqa_pairs_samples_per_second": 148.688,
      "eval_openbookqa_pairs_steps_per_second": 2.323,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_msmarco_pairs_loss": 2.1841843128204346,
      "eval_msmarco_pairs_runtime": 1.9699,
      "eval_msmarco_pairs_samples_per_second": 64.979,
      "eval_msmarco_pairs_steps_per_second": 1.015,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_nq_pairs_loss": 2.703659772872925,
      "eval_nq_pairs_runtime": 3.3561,
      "eval_nq_pairs_samples_per_second": 38.139,
      "eval_nq_pairs_steps_per_second": 0.596,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_trivia_pairs_loss": 2.679865837097168,
      "eval_trivia_pairs_runtime": 4.4691,
      "eval_trivia_pairs_samples_per_second": 28.641,
      "eval_trivia_pairs_steps_per_second": 0.448,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_gooaq_pairs_loss": 2.084993839263916,
      "eval_gooaq_pairs_runtime": 1.4582,
      "eval_gooaq_pairs_samples_per_second": 87.778,
      "eval_gooaq_pairs_steps_per_second": 1.372,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_paws-pos_loss": 0.10109881311655045,
      "eval_paws-pos_runtime": 1.0293,
      "eval_paws-pos_samples_per_second": 124.361,
      "eval_paws-pos_steps_per_second": 1.943,
      "step": 300
    },
    {
      "epoch": 0.23273855702094648,
      "eval_global_dataset_loss": 1.313809871673584,
      "eval_global_dataset_runtime": 19.3851,
      "eval_global_dataset_samples_per_second": 21.46,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 300
    },
    {
      "epoch": 0.2335143522110163,
      "grad_norm": 24.429811477661133,
      "learning_rate": 1.2297297297297297e-05,
      "loss": 3.6509,
      "step": 301
    },
    {
      "epoch": 0.2342901474010861,
      "grad_norm": 14.498895645141602,
      "learning_rate": 1.2338425381903641e-05,
      "loss": 1.2198,
      "step": 302
    },
    {
      "epoch": 0.23506594259115593,
      "grad_norm": 5.096879959106445,
      "learning_rate": 1.2379553466509986e-05,
      "loss": 0.192,
      "step": 303
    },
    {
      "epoch": 0.23584173778122575,
      "grad_norm": 26.32643699645996,
      "learning_rate": 1.2420681551116333e-05,
      "loss": 3.4814,
      "step": 304
    },
    {
      "epoch": 0.2366175329712956,
      "grad_norm": 12.396186828613281,
      "learning_rate": 1.2461809635722679e-05,
      "loss": 1.3822,
      "step": 305
    },
    {
      "epoch": 0.2373933281613654,
      "grad_norm": 5.122003555297852,
      "learning_rate": 1.2502937720329024e-05,
      "loss": 0.2507,
      "step": 306
    },
    {
      "epoch": 0.23816912335143522,
      "grad_norm": 13.125459671020508,
      "learning_rate": 1.2544065804935369e-05,
      "loss": 1.9133,
      "step": 307
    },
    {
      "epoch": 0.23894491854150504,
      "grad_norm": Infinity,
      "learning_rate": 1.2544065804935369e-05,
      "loss": 0.7287,
      "step": 308
    },
    {
      "epoch": 0.23972071373157486,
      "grad_norm": 16.207378387451172,
      "learning_rate": 1.2585193889541714e-05,
      "loss": 1.6418,
      "step": 309
    },
    {
      "epoch": 0.24049650892164467,
      "grad_norm": 18.47272300720215,
      "learning_rate": 1.262632197414806e-05,
      "loss": 2.1207,
      "step": 310
    },
    {
      "epoch": 0.24127230411171452,
      "grad_norm": 13.787567138671875,
      "learning_rate": 1.2667450058754405e-05,
      "loss": 1.178,
      "step": 311
    },
    {
      "epoch": 0.24204809930178434,
      "grad_norm": 26.077777862548828,
      "learning_rate": 1.2708578143360752e-05,
      "loss": 3.5281,
      "step": 312
    },
    {
      "epoch": 0.24282389449185415,
      "grad_norm": 16.01590347290039,
      "learning_rate": 1.2749706227967097e-05,
      "loss": 2.2668,
      "step": 313
    },
    {
      "epoch": 0.24359968968192397,
      "grad_norm": 15.849452018737793,
      "learning_rate": 1.2790834312573443e-05,
      "loss": 1.5443,
      "step": 314
    },
    {
      "epoch": 0.2443754848719938,
      "grad_norm": 3.772362470626831,
      "learning_rate": 1.2831962397179786e-05,
      "loss": 0.1658,
      "step": 315
    },
    {
      "epoch": 0.2451512800620636,
      "grad_norm": 13.069218635559082,
      "learning_rate": 1.2873090481786133e-05,
      "loss": 1.0262,
      "step": 316
    },
    {
      "epoch": 0.24592707525213345,
      "grad_norm": 13.916678428649902,
      "learning_rate": 1.2914218566392478e-05,
      "loss": 1.0937,
      "step": 317
    },
    {
      "epoch": 0.24670287044220326,
      "grad_norm": 11.905617713928223,
      "learning_rate": 1.2955346650998824e-05,
      "loss": 0.9618,
      "step": 318
    },
    {
      "epoch": 0.24747866563227308,
      "grad_norm": 14.229816436767578,
      "learning_rate": 1.299647473560517e-05,
      "loss": 1.2004,
      "step": 319
    },
    {
      "epoch": 0.2482544608223429,
      "grad_norm": 17.332258224487305,
      "learning_rate": 1.3037602820211514e-05,
      "loss": 1.9246,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_Qnli-dev_cosine_accuracy": 0.654296875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8905587196350098,
      "eval_Qnli-dev_cosine_ap": 0.6566239311243058,
      "eval_Qnli-dev_cosine_f1": 0.6535947712418301,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7684817314147949,
      "eval_Qnli-dev_cosine_precision": 0.5319148936170213,
      "eval_Qnli-dev_cosine_recall": 0.847457627118644,
      "eval_Qnli-dev_dot_accuracy": 0.650390625,
      "eval_Qnli-dev_dot_accuracy_threshold": 500.9089660644531,
      "eval_Qnli-dev_dot_ap": 0.614512025409862,
      "eval_Qnli-dev_dot_f1": 0.6458333333333333,
      "eval_Qnli-dev_dot_f1_threshold": 391.3675842285156,
      "eval_Qnli-dev_dot_precision": 0.49770642201834864,
      "eval_Qnli-dev_dot_recall": 0.9194915254237288,
      "eval_Qnli-dev_euclidean_accuracy": 0.654296875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.877283096313477,
      "eval_Qnli-dev_euclidean_ap": 0.6557982087274061,
      "eval_Qnli-dev_euclidean_f1": 0.6550632911392406,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.702594757080078,
      "eval_Qnli-dev_euclidean_precision": 0.5227272727272727,
      "eval_Qnli-dev_euclidean_recall": 0.8771186440677966,
      "eval_Qnli-dev_manhattan_accuracy": 0.6484375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 231.19979858398438,
      "eval_Qnli-dev_manhattan_ap": 0.656366538019928,
      "eval_Qnli-dev_manhattan_f1": 0.6552706552706552,
      "eval_Qnli-dev_manhattan_f1_threshold": 338.2535705566406,
      "eval_Qnli-dev_manhattan_precision": 0.49356223175965663,
      "eval_Qnli-dev_manhattan_recall": 0.9745762711864406,
      "eval_Qnli-dev_max_accuracy": 0.654296875,
      "eval_Qnli-dev_max_accuracy_threshold": 500.9089660644531,
      "eval_Qnli-dev_max_ap": 0.6566239311243058,
      "eval_Qnli-dev_max_f1": 0.6552706552706552,
      "eval_Qnli-dev_max_f1_threshold": 391.3675842285156,
      "eval_Qnli-dev_max_precision": 0.5319148936170213,
      "eval_Qnli-dev_max_recall": 0.9745762711864406,
      "eval_allNLI-dev_cosine_accuracy": 0.701171875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9404147863388062,
      "eval_allNLI-dev_cosine_ap": 0.5579463691828763,
      "eval_allNLI-dev_cosine_f1": 0.5701357466063348,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8488144874572754,
      "eval_allNLI-dev_cosine_precision": 0.4684014869888476,
      "eval_allNLI-dev_cosine_recall": 0.7283236994219653,
      "eval_allNLI-dev_dot_accuracy": 0.671875,
      "eval_allNLI-dev_dot_accuracy_threshold": 551.6342163085938,
      "eval_allNLI-dev_dot_ap": 0.43378774860429486,
      "eval_allNLI-dev_dot_f1": 0.5163297045101088,
      "eval_allNLI-dev_dot_f1_threshold": 377.14434814453125,
      "eval_allNLI-dev_dot_precision": 0.35319148936170214,
      "eval_allNLI-dev_dot_recall": 0.9595375722543352,
      "eval_allNLI-dev_euclidean_accuracy": 0.703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.960792541503906,
      "eval_allNLI-dev_euclidean_ap": 0.5546275802890028,
      "eval_allNLI-dev_euclidean_f1": 0.587962962962963,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.992522239685059,
      "eval_allNLI-dev_euclidean_precision": 0.49034749034749037,
      "eval_allNLI-dev_euclidean_recall": 0.7341040462427746,
      "eval_allNLI-dev_manhattan_accuracy": 0.705078125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 164.56690979003906,
      "eval_allNLI-dev_manhattan_ap": 0.5514099685309427,
      "eval_allNLI-dev_manhattan_f1": 0.5848214285714286,
      "eval_allNLI-dev_manhattan_f1_threshold": 235.60809326171875,
      "eval_allNLI-dev_manhattan_precision": 0.4763636363636364,
      "eval_allNLI-dev_manhattan_recall": 0.7572254335260116,
      "eval_allNLI-dev_max_accuracy": 0.705078125,
      "eval_allNLI-dev_max_accuracy_threshold": 551.6342163085938,
      "eval_allNLI-dev_max_ap": 0.5579463691828763,
      "eval_allNLI-dev_max_f1": 0.587962962962963,
      "eval_allNLI-dev_max_f1_threshold": 377.14434814453125,
      "eval_allNLI-dev_max_precision": 0.49034749034749037,
      "eval_allNLI-dev_max_recall": 0.9595375722543352,
      "eval_sequential_score": 0.6566239311243058,
      "eval_sts-test_pearson_cosine": 0.7117567998089547,
      "eval_sts-test_pearson_dot": 0.5733361964341069,
      "eval_sts-test_pearson_euclidean": 0.7403010779801018,
      "eval_sts-test_pearson_manhattan": 0.7435587607796431,
      "eval_sts-test_pearson_max": 0.7435587607796431,
      "eval_sts-test_spearman_cosine": 0.7663937236274388,
      "eval_sts-test_spearman_dot": 0.568597265393501,
      "eval_sts-test_spearman_euclidean": 0.7497347533156606,
      "eval_sts-test_spearman_manhattan": 0.7521505159080911,
      "eval_sts-test_spearman_max": 0.7663937236274388,
      "eval_vitaminc-pairs_loss": 3.890385866165161,
      "eval_vitaminc-pairs_runtime": 5.4819,
      "eval_vitaminc-pairs_samples_per_second": 23.35,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_negation-triplets_loss": 2.72622013092041,
      "eval_negation-triplets_runtime": 1.1205,
      "eval_negation-triplets_samples_per_second": 114.23,
      "eval_negation-triplets_steps_per_second": 1.785,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_scitail-pairs-pos_loss": 0.2762339115142822,
      "eval_scitail-pairs-pos_runtime": 1.2581,
      "eval_scitail-pairs-pos_samples_per_second": 101.741,
      "eval_scitail-pairs-pos_steps_per_second": 1.59,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_scitail-pairs-qa_loss": 0.45161712169647217,
      "eval_scitail-pairs-qa_runtime": 0.7692,
      "eval_scitail-pairs-qa_samples_per_second": 166.412,
      "eval_scitail-pairs-qa_steps_per_second": 2.6,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_xsum-pairs_loss": 1.5600008964538574,
      "eval_xsum-pairs_runtime": 3.9187,
      "eval_xsum-pairs_samples_per_second": 32.664,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_sciq_pairs_loss": 0.19931760430335999,
      "eval_sciq_pairs_runtime": 5.9074,
      "eval_sciq_pairs_samples_per_second": 21.668,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_qasc_pairs_loss": 1.9438467025756836,
      "eval_qasc_pairs_runtime": 0.9129,
      "eval_qasc_pairs_samples_per_second": 140.208,
      "eval_qasc_pairs_steps_per_second": 2.191,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_openbookqa_pairs_loss": 2.985114812850952,
      "eval_openbookqa_pairs_runtime": 0.8708,
      "eval_openbookqa_pairs_samples_per_second": 146.986,
      "eval_openbookqa_pairs_steps_per_second": 2.297,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_msmarco_pairs_loss": 1.8927481174468994,
      "eval_msmarco_pairs_runtime": 1.9678,
      "eval_msmarco_pairs_samples_per_second": 65.047,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_nq_pairs_loss": 2.5300557613372803,
      "eval_nq_pairs_runtime": 3.327,
      "eval_nq_pairs_samples_per_second": 38.473,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_trivia_pairs_loss": 2.241274356842041,
      "eval_trivia_pairs_runtime": 4.4728,
      "eval_trivia_pairs_samples_per_second": 28.617,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_gooaq_pairs_loss": 1.903867483139038,
      "eval_gooaq_pairs_runtime": 1.4588,
      "eval_gooaq_pairs_samples_per_second": 87.746,
      "eval_gooaq_pairs_steps_per_second": 1.371,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_paws-pos_loss": 0.07195574045181274,
      "eval_paws-pos_runtime": 1.0296,
      "eval_paws-pos_samples_per_second": 124.318,
      "eval_paws-pos_steps_per_second": 1.942,
      "step": 320
    },
    {
      "epoch": 0.2482544608223429,
      "eval_global_dataset_loss": 1.1946886777877808,
      "eval_global_dataset_runtime": 19.4048,
      "eval_global_dataset_samples_per_second": 21.438,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 320
    },
    {
      "epoch": 0.24903025601241272,
      "grad_norm": 20.10428237915039,
      "learning_rate": 1.307873090481786e-05,
      "loss": 2.431,
      "step": 321
    },
    {
      "epoch": 0.24980605120248253,
      "grad_norm": 23.540996551513672,
      "learning_rate": 1.3119858989424205e-05,
      "loss": 2.7341,
      "step": 322
    },
    {
      "epoch": 0.2505818463925524,
      "grad_norm": 17.5711727142334,
      "learning_rate": 1.3160987074030552e-05,
      "loss": 2.1992,
      "step": 323
    },
    {
      "epoch": 0.2513576415826222,
      "grad_norm": 15.386451721191406,
      "learning_rate": 1.3202115158636897e-05,
      "loss": 1.7715,
      "step": 324
    },
    {
      "epoch": 0.252133436772692,
      "grad_norm": 15.816802978515625,
      "learning_rate": 1.3243243243243242e-05,
      "loss": 2.2684,
      "step": 325
    },
    {
      "epoch": 0.2529092319627618,
      "grad_norm": 13.765118598937988,
      "learning_rate": 1.3284371327849586e-05,
      "loss": 0.9866,
      "step": 326
    },
    {
      "epoch": 0.25368502715283164,
      "grad_norm": 14.085391998291016,
      "learning_rate": 1.3325499412455933e-05,
      "loss": 1.662,
      "step": 327
    },
    {
      "epoch": 0.25446082234290146,
      "grad_norm": 17.159772872924805,
      "learning_rate": 1.3366627497062278e-05,
      "loss": 2.5149,
      "step": 328
    },
    {
      "epoch": 0.2552366175329713,
      "grad_norm": 21.812040328979492,
      "learning_rate": 1.3407755581668624e-05,
      "loss": 2.1649,
      "step": 329
    },
    {
      "epoch": 0.2560124127230411,
      "grad_norm": 14.715442657470703,
      "learning_rate": 1.344888366627497e-05,
      "loss": 1.346,
      "step": 330
    },
    {
      "epoch": 0.25678820791311097,
      "grad_norm": 11.09142017364502,
      "learning_rate": 1.3490011750881316e-05,
      "loss": 0.5911,
      "step": 331
    },
    {
      "epoch": 0.2575640031031808,
      "grad_norm": 10.195703506469727,
      "learning_rate": 1.353113983548766e-05,
      "loss": 0.5095,
      "step": 332
    },
    {
      "epoch": 0.2583397982932506,
      "grad_norm": 18.701921463012695,
      "learning_rate": 1.3572267920094005e-05,
      "loss": 1.5759,
      "step": 333
    },
    {
      "epoch": 0.2591155934833204,
      "grad_norm": 18.979888916015625,
      "learning_rate": 1.3613396004700352e-05,
      "loss": 1.9982,
      "step": 334
    },
    {
      "epoch": 0.25989138867339023,
      "grad_norm": 12.601350784301758,
      "learning_rate": 1.3654524089306697e-05,
      "loss": 0.9951,
      "step": 335
    },
    {
      "epoch": 0.26066718386346005,
      "grad_norm": 13.246020317077637,
      "learning_rate": 1.3695652173913042e-05,
      "loss": 1.0595,
      "step": 336
    },
    {
      "epoch": 0.26144297905352987,
      "grad_norm": 14.633255958557129,
      "learning_rate": 1.373678025851939e-05,
      "loss": 1.1949,
      "step": 337
    },
    {
      "epoch": 0.2622187742435997,
      "grad_norm": 23.022418975830078,
      "learning_rate": 1.3777908343125733e-05,
      "loss": 2.5501,
      "step": 338
    },
    {
      "epoch": 0.2629945694336695,
      "grad_norm": 11.299046516418457,
      "learning_rate": 1.3819036427732078e-05,
      "loss": 0.6162,
      "step": 339
    },
    {
      "epoch": 0.2637703646237393,
      "grad_norm": 17.452680587768555,
      "learning_rate": 1.3860164512338423e-05,
      "loss": 2.5935,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_Qnli-dev_cosine_accuracy": 0.654296875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8862133026123047,
      "eval_Qnli-dev_cosine_ap": 0.66756403549097,
      "eval_Qnli-dev_cosine_f1": 0.6584234930448223,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7246769666671753,
      "eval_Qnli-dev_cosine_precision": 0.5182481751824818,
      "eval_Qnli-dev_cosine_recall": 0.902542372881356,
      "eval_Qnli-dev_dot_accuracy": 0.6171875,
      "eval_Qnli-dev_dot_accuracy_threshold": 484.943359375,
      "eval_Qnli-dev_dot_ap": 0.5978698374693151,
      "eval_Qnli-dev_dot_f1": 0.6473029045643155,
      "eval_Qnli-dev_dot_f1_threshold": 315.24456787109375,
      "eval_Qnli-dev_dot_precision": 0.4804928131416838,
      "eval_Qnli-dev_dot_recall": 0.9915254237288136,
      "eval_Qnli-dev_euclidean_accuracy": 0.66015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.338907241821289,
      "eval_Qnli-dev_euclidean_ap": 0.671692842222398,
      "eval_Qnli-dev_euclidean_f1": 0.667741935483871,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.789207458496094,
      "eval_Qnli-dev_euclidean_precision": 0.5390625,
      "eval_Qnli-dev_euclidean_recall": 0.8771186440677966,
      "eval_Qnli-dev_manhattan_accuracy": 0.65234375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 236.0693817138672,
      "eval_Qnli-dev_manhattan_ap": 0.6684108051825812,
      "eval_Qnli-dev_manhattan_f1": 0.6613672496025437,
      "eval_Qnli-dev_manhattan_f1_threshold": 300.67083740234375,
      "eval_Qnli-dev_manhattan_precision": 0.5292620865139949,
      "eval_Qnli-dev_manhattan_recall": 0.8813559322033898,
      "eval_Qnli-dev_max_accuracy": 0.66015625,
      "eval_Qnli-dev_max_accuracy_threshold": 484.943359375,
      "eval_Qnli-dev_max_ap": 0.671692842222398,
      "eval_Qnli-dev_max_f1": 0.667741935483871,
      "eval_Qnli-dev_max_f1_threshold": 315.24456787109375,
      "eval_Qnli-dev_max_precision": 0.5390625,
      "eval_Qnli-dev_max_recall": 0.9915254237288136,
      "eval_allNLI-dev_cosine_accuracy": 0.705078125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9073655605316162,
      "eval_allNLI-dev_cosine_ap": 0.5564225469981687,
      "eval_allNLI-dev_cosine_f1": 0.5771543086172345,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8149856328964233,
      "eval_allNLI-dev_cosine_precision": 0.44171779141104295,
      "eval_allNLI-dev_cosine_recall": 0.8323699421965318,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 569.36572265625,
      "eval_allNLI-dev_dot_ap": 0.4263791502380346,
      "eval_allNLI-dev_dot_f1": 0.5185185185185185,
      "eval_allNLI-dev_dot_f1_threshold": 372.38739013671875,
      "eval_allNLI-dev_dot_precision": 0.35368421052631577,
      "eval_allNLI-dev_dot_recall": 0.9710982658959537,
      "eval_allNLI-dev_euclidean_accuracy": 0.701171875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.666521072387695,
      "eval_allNLI-dev_euclidean_ap": 0.5527711745598307,
      "eval_allNLI-dev_euclidean_f1": 0.58,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.50294303894043,
      "eval_allNLI-dev_euclidean_precision": 0.4434250764525994,
      "eval_allNLI-dev_euclidean_recall": 0.838150289017341,
      "eval_allNLI-dev_manhattan_accuracy": 0.69921875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 172.1617431640625,
      "eval_allNLI-dev_manhattan_ap": 0.549699669805767,
      "eval_allNLI-dev_manhattan_f1": 0.57847533632287,
      "eval_allNLI-dev_manhattan_f1_threshold": 237.099609375,
      "eval_allNLI-dev_manhattan_precision": 0.4725274725274725,
      "eval_allNLI-dev_manhattan_recall": 0.7456647398843931,
      "eval_allNLI-dev_max_accuracy": 0.705078125,
      "eval_allNLI-dev_max_accuracy_threshold": 569.36572265625,
      "eval_allNLI-dev_max_ap": 0.5564225469981687,
      "eval_allNLI-dev_max_f1": 0.58,
      "eval_allNLI-dev_max_f1_threshold": 372.38739013671875,
      "eval_allNLI-dev_max_precision": 0.4725274725274725,
      "eval_allNLI-dev_max_recall": 0.9710982658959537,
      "eval_sequential_score": 0.671692842222398,
      "eval_sts-test_pearson_cosine": 0.7243956628134518,
      "eval_sts-test_pearson_dot": 0.5891127817185653,
      "eval_sts-test_pearson_euclidean": 0.7563072643530611,
      "eval_sts-test_pearson_manhattan": 0.7595492842385803,
      "eval_sts-test_pearson_max": 0.7595492842385803,
      "eval_sts-test_spearman_cosine": 0.7786661305463707,
      "eval_sts-test_spearman_dot": 0.5749737383753772,
      "eval_sts-test_spearman_euclidean": 0.7658272621607465,
      "eval_sts-test_spearman_manhattan": 0.7665132094953538,
      "eval_sts-test_spearman_max": 0.7786661305463707,
      "eval_vitaminc-pairs_loss": 4.09152364730835,
      "eval_vitaminc-pairs_runtime": 5.4593,
      "eval_vitaminc-pairs_samples_per_second": 23.446,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_negation-triplets_loss": 2.6371383666992188,
      "eval_negation-triplets_runtime": 1.0786,
      "eval_negation-triplets_samples_per_second": 118.673,
      "eval_negation-triplets_steps_per_second": 1.854,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_scitail-pairs-pos_loss": 0.2726733982563019,
      "eval_scitail-pairs-pos_runtime": 1.3003,
      "eval_scitail-pairs-pos_samples_per_second": 98.437,
      "eval_scitail-pairs-pos_steps_per_second": 1.538,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_scitail-pairs-qa_loss": 0.29476043581962585,
      "eval_scitail-pairs-qa_runtime": 0.7756,
      "eval_scitail-pairs-qa_samples_per_second": 165.044,
      "eval_scitail-pairs-qa_steps_per_second": 2.579,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_xsum-pairs_loss": 1.1797327995300293,
      "eval_xsum-pairs_runtime": 3.926,
      "eval_xsum-pairs_samples_per_second": 32.603,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_sciq_pairs_loss": 0.20037926733493805,
      "eval_sciq_pairs_runtime": 5.9805,
      "eval_sciq_pairs_samples_per_second": 21.403,
      "eval_sciq_pairs_steps_per_second": 0.334,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_qasc_pairs_loss": 1.7151902914047241,
      "eval_qasc_pairs_runtime": 0.9167,
      "eval_qasc_pairs_samples_per_second": 139.638,
      "eval_qasc_pairs_steps_per_second": 2.182,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_openbookqa_pairs_loss": 2.896383285522461,
      "eval_openbookqa_pairs_runtime": 0.8663,
      "eval_openbookqa_pairs_samples_per_second": 147.758,
      "eval_openbookqa_pairs_steps_per_second": 2.309,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_msmarco_pairs_loss": 1.7021561861038208,
      "eval_msmarco_pairs_runtime": 1.9693,
      "eval_msmarco_pairs_samples_per_second": 64.998,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_nq_pairs_loss": 2.386425495147705,
      "eval_nq_pairs_runtime": 3.329,
      "eval_nq_pairs_samples_per_second": 38.45,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_trivia_pairs_loss": 2.106788158416748,
      "eval_trivia_pairs_runtime": 4.4813,
      "eval_trivia_pairs_samples_per_second": 28.563,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_gooaq_pairs_loss": 1.6904075145721436,
      "eval_gooaq_pairs_runtime": 1.462,
      "eval_gooaq_pairs_samples_per_second": 87.549,
      "eval_gooaq_pairs_steps_per_second": 1.368,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_paws-pos_loss": 0.07298789173364639,
      "eval_paws-pos_runtime": 1.0282,
      "eval_paws-pos_samples_per_second": 124.488,
      "eval_paws-pos_steps_per_second": 1.945,
      "step": 340
    },
    {
      "epoch": 0.2637703646237393,
      "eval_global_dataset_loss": 1.1202222108840942,
      "eval_global_dataset_runtime": 19.7634,
      "eval_global_dataset_samples_per_second": 21.049,
      "eval_global_dataset_steps_per_second": 0.354,
      "step": 340
    },
    {
      "epoch": 0.26454615981380913,
      "grad_norm": 13.917789459228516,
      "learning_rate": 1.390129259694477e-05,
      "loss": 1.0405,
      "step": 341
    },
    {
      "epoch": 0.26532195500387895,
      "grad_norm": 3.5778942108154297,
      "learning_rate": 1.3942420681551116e-05,
      "loss": 0.1426,
      "step": 342
    },
    {
      "epoch": 0.2660977501939488,
      "grad_norm": 2.9975743293762207,
      "learning_rate": 1.398354876615746e-05,
      "loss": 0.1581,
      "step": 343
    },
    {
      "epoch": 0.26687354538401864,
      "grad_norm": 16.48363494873047,
      "learning_rate": 1.4024676850763806e-05,
      "loss": 1.2941,
      "step": 344
    },
    {
      "epoch": 0.26764934057408846,
      "grad_norm": 18.412607192993164,
      "learning_rate": 1.4065804935370152e-05,
      "loss": 1.4073,
      "step": 345
    },
    {
      "epoch": 0.2684251357641583,
      "grad_norm": 23.597875595092773,
      "learning_rate": 1.4106933019976497e-05,
      "loss": 2.9241,
      "step": 346
    },
    {
      "epoch": 0.2692009309542281,
      "grad_norm": 14.105793952941895,
      "learning_rate": 1.4148061104582842e-05,
      "loss": 1.0363,
      "step": 347
    },
    {
      "epoch": 0.2699767261442979,
      "grad_norm": 10.320302963256836,
      "learning_rate": 1.4189189189189189e-05,
      "loss": 0.4006,
      "step": 348
    },
    {
      "epoch": 0.2707525213343677,
      "grad_norm": 3.639824390411377,
      "learning_rate": 1.4230317273795533e-05,
      "loss": 0.1023,
      "step": 349
    },
    {
      "epoch": 0.27152831652443754,
      "grad_norm": 17.6627140045166,
      "learning_rate": 1.4271445358401878e-05,
      "loss": 1.387,
      "step": 350
    },
    {
      "epoch": 0.27230411171450736,
      "grad_norm": 13.692511558532715,
      "learning_rate": 1.4312573443008225e-05,
      "loss": 1.1226,
      "step": 351
    },
    {
      "epoch": 0.2730799069045772,
      "grad_norm": 12.948782920837402,
      "learning_rate": 1.435370152761457e-05,
      "loss": 1.0783,
      "step": 352
    },
    {
      "epoch": 0.273855702094647,
      "grad_norm": 10.763011932373047,
      "learning_rate": 1.4394829612220916e-05,
      "loss": 0.5612,
      "step": 353
    },
    {
      "epoch": 0.2746314972847168,
      "grad_norm": 9.04108715057373,
      "learning_rate": 1.4435957696827261e-05,
      "loss": 0.341,
      "step": 354
    },
    {
      "epoch": 0.2754072924747867,
      "grad_norm": 19.667123794555664,
      "learning_rate": 1.4477085781433606e-05,
      "loss": 2.1785,
      "step": 355
    },
    {
      "epoch": 0.2761830876648565,
      "grad_norm": 13.326544761657715,
      "learning_rate": 1.4518213866039951e-05,
      "loss": 1.0447,
      "step": 356
    },
    {
      "epoch": 0.2769588828549263,
      "grad_norm": 13.251660346984863,
      "learning_rate": 1.4559341950646297e-05,
      "loss": 1.7571,
      "step": 357
    },
    {
      "epoch": 0.27773467804499613,
      "grad_norm": 11.811800003051758,
      "learning_rate": 1.4600470035252644e-05,
      "loss": 0.7628,
      "step": 358
    },
    {
      "epoch": 0.27851047323506595,
      "grad_norm": 12.644298553466797,
      "learning_rate": 1.4641598119858989e-05,
      "loss": 1.484,
      "step": 359
    },
    {
      "epoch": 0.27928626842513576,
      "grad_norm": 13.762871742248535,
      "learning_rate": 1.4682726204465333e-05,
      "loss": 0.9251,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_Qnli-dev_cosine_accuracy": 0.666015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8717567324638367,
      "eval_Qnli-dev_cosine_ap": 0.6860759366130562,
      "eval_Qnli-dev_cosine_f1": 0.6689536878216124,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7581139206886292,
      "eval_Qnli-dev_cosine_precision": 0.5619596541786743,
      "eval_Qnli-dev_cosine_recall": 0.826271186440678,
      "eval_Qnli-dev_dot_accuracy": 0.63671875,
      "eval_Qnli-dev_dot_accuracy_threshold": 459.53399658203125,
      "eval_Qnli-dev_dot_ap": 0.6218381128546775,
      "eval_Qnli-dev_dot_f1": 0.6439716312056738,
      "eval_Qnli-dev_dot_f1_threshold": 301.81005859375,
      "eval_Qnli-dev_dot_precision": 0.4840085287846482,
      "eval_Qnli-dev_dot_recall": 0.961864406779661,
      "eval_Qnli-dev_euclidean_accuracy": 0.669921875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.433991432189941,
      "eval_Qnli-dev_euclidean_ap": 0.6869080605731943,
      "eval_Qnli-dev_euclidean_f1": 0.6656101426307447,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.318620681762695,
      "eval_Qnli-dev_euclidean_precision": 0.5316455696202531,
      "eval_Qnli-dev_euclidean_recall": 0.8898305084745762,
      "eval_Qnli-dev_manhattan_accuracy": 0.6640625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 228.75628662109375,
      "eval_Qnli-dev_manhattan_ap": 0.68965585683084,
      "eval_Qnli-dev_manhattan_f1": 0.6632478632478632,
      "eval_Qnli-dev_manhattan_f1_threshold": 284.19061279296875,
      "eval_Qnli-dev_manhattan_precision": 0.5558739255014327,
      "eval_Qnli-dev_manhattan_recall": 0.8220338983050848,
      "eval_Qnli-dev_max_accuracy": 0.669921875,
      "eval_Qnli-dev_max_accuracy_threshold": 459.53399658203125,
      "eval_Qnli-dev_max_ap": 0.68965585683084,
      "eval_Qnli-dev_max_f1": 0.6689536878216124,
      "eval_Qnli-dev_max_f1_threshold": 301.81005859375,
      "eval_Qnli-dev_max_precision": 0.5619596541786743,
      "eval_Qnli-dev_max_recall": 0.961864406779661,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9161433577537537,
      "eval_allNLI-dev_cosine_ap": 0.5573013541231226,
      "eval_allNLI-dev_cosine_f1": 0.5746102449888643,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8298524618148804,
      "eval_allNLI-dev_cosine_precision": 0.4673913043478261,
      "eval_allNLI-dev_cosine_recall": 0.7456647398843931,
      "eval_allNLI-dev_dot_accuracy": 0.671875,
      "eval_allNLI-dev_dot_accuracy_threshold": 528.9375610351562,
      "eval_allNLI-dev_dot_ap": 0.44070356109899267,
      "eval_allNLI-dev_dot_f1": 0.5288461538461539,
      "eval_allNLI-dev_dot_f1_threshold": 365.5830993652344,
      "eval_allNLI-dev_dot_precision": 0.36585365853658536,
      "eval_allNLI-dev_dot_recall": 0.953757225433526,
      "eval_allNLI-dev_euclidean_accuracy": 0.70703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.844797134399414,
      "eval_allNLI-dev_euclidean_ap": 0.5560731306129769,
      "eval_allNLI-dev_euclidean_f1": 0.5802197802197803,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.859457015991211,
      "eval_allNLI-dev_euclidean_precision": 0.46808510638297873,
      "eval_allNLI-dev_euclidean_recall": 0.7630057803468208,
      "eval_allNLI-dev_manhattan_accuracy": 0.705078125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 175.87850952148438,
      "eval_allNLI-dev_manhattan_ap": 0.5563049257109853,
      "eval_allNLI-dev_manhattan_f1": 0.5781584582441114,
      "eval_allNLI-dev_manhattan_f1_threshold": 247.3190460205078,
      "eval_allNLI-dev_manhattan_precision": 0.45918367346938777,
      "eval_allNLI-dev_manhattan_recall": 0.7803468208092486,
      "eval_allNLI-dev_max_accuracy": 0.70703125,
      "eval_allNLI-dev_max_accuracy_threshold": 528.9375610351562,
      "eval_allNLI-dev_max_ap": 0.5573013541231226,
      "eval_allNLI-dev_max_f1": 0.5802197802197803,
      "eval_allNLI-dev_max_f1_threshold": 365.5830993652344,
      "eval_allNLI-dev_max_precision": 0.46808510638297873,
      "eval_allNLI-dev_max_recall": 0.953757225433526,
      "eval_sequential_score": 0.68965585683084,
      "eval_sts-test_pearson_cosine": 0.721042503051432,
      "eval_sts-test_pearson_dot": 0.607093809147636,
      "eval_sts-test_pearson_euclidean": 0.7426227812990502,
      "eval_sts-test_pearson_manhattan": 0.7503986889702454,
      "eval_sts-test_pearson_max": 0.7503986889702454,
      "eval_sts-test_spearman_cosine": 0.7696001515061325,
      "eval_sts-test_spearman_dot": 0.5927313521543144,
      "eval_sts-test_spearman_euclidean": 0.7520645039836967,
      "eval_sts-test_spearman_manhattan": 0.7576274437847389,
      "eval_sts-test_spearman_max": 0.7696001515061325,
      "eval_vitaminc-pairs_loss": 3.9781370162963867,
      "eval_vitaminc-pairs_runtime": 5.512,
      "eval_vitaminc-pairs_samples_per_second": 23.222,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_negation-triplets_loss": 2.5823302268981934,
      "eval_negation-triplets_runtime": 1.0851,
      "eval_negation-triplets_samples_per_second": 117.963,
      "eval_negation-triplets_steps_per_second": 1.843,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_scitail-pairs-pos_loss": 0.26392969489097595,
      "eval_scitail-pairs-pos_runtime": 1.2797,
      "eval_scitail-pairs-pos_samples_per_second": 100.027,
      "eval_scitail-pairs-pos_steps_per_second": 1.563,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_scitail-pairs-qa_loss": 0.1483456939458847,
      "eval_scitail-pairs-qa_runtime": 0.7754,
      "eval_scitail-pairs-qa_samples_per_second": 165.081,
      "eval_scitail-pairs-qa_steps_per_second": 2.579,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_xsum-pairs_loss": 1.1921199560165405,
      "eval_xsum-pairs_runtime": 3.921,
      "eval_xsum-pairs_samples_per_second": 32.645,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_sciq_pairs_loss": 0.19694603979587555,
      "eval_sciq_pairs_runtime": 5.9451,
      "eval_sciq_pairs_samples_per_second": 21.53,
      "eval_sciq_pairs_steps_per_second": 0.336,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_qasc_pairs_loss": 1.6314117908477783,
      "eval_qasc_pairs_runtime": 0.915,
      "eval_qasc_pairs_samples_per_second": 139.89,
      "eval_qasc_pairs_steps_per_second": 2.186,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_openbookqa_pairs_loss": 2.9225094318389893,
      "eval_openbookqa_pairs_runtime": 0.8645,
      "eval_openbookqa_pairs_samples_per_second": 148.068,
      "eval_openbookqa_pairs_steps_per_second": 2.314,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_msmarco_pairs_loss": 1.7400954961776733,
      "eval_msmarco_pairs_runtime": 1.9712,
      "eval_msmarco_pairs_samples_per_second": 64.934,
      "eval_msmarco_pairs_steps_per_second": 1.015,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_nq_pairs_loss": 2.5981578826904297,
      "eval_nq_pairs_runtime": 3.321,
      "eval_nq_pairs_samples_per_second": 38.543,
      "eval_nq_pairs_steps_per_second": 0.602,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_trivia_pairs_loss": 2.081812858581543,
      "eval_trivia_pairs_runtime": 4.4685,
      "eval_trivia_pairs_samples_per_second": 28.645,
      "eval_trivia_pairs_steps_per_second": 0.448,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_gooaq_pairs_loss": 1.7672526836395264,
      "eval_gooaq_pairs_runtime": 1.458,
      "eval_gooaq_pairs_samples_per_second": 87.79,
      "eval_gooaq_pairs_steps_per_second": 1.372,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_paws-pos_loss": 0.06698527932167053,
      "eval_paws-pos_runtime": 1.0435,
      "eval_paws-pos_samples_per_second": 122.667,
      "eval_paws-pos_steps_per_second": 1.917,
      "step": 360
    },
    {
      "epoch": 0.27928626842513576,
      "eval_global_dataset_loss": 1.085707664489746,
      "eval_global_dataset_runtime": 19.4244,
      "eval_global_dataset_samples_per_second": 21.416,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 360
    },
    {
      "epoch": 0.2800620636152056,
      "grad_norm": 23.30377769470215,
      "learning_rate": 1.4723854289071678e-05,
      "loss": 2.7937,
      "step": 361
    },
    {
      "epoch": 0.2808378588052754,
      "grad_norm": 1.3426634073257446,
      "learning_rate": 1.4764982373678025e-05,
      "loss": 0.0538,
      "step": 362
    },
    {
      "epoch": 0.2816136539953452,
      "grad_norm": 1.4219021797180176,
      "learning_rate": 1.480611045828437e-05,
      "loss": 0.0386,
      "step": 363
    },
    {
      "epoch": 0.28238944918541503,
      "grad_norm": 13.968167304992676,
      "learning_rate": 1.4847238542890715e-05,
      "loss": 0.9797,
      "step": 364
    },
    {
      "epoch": 0.28316524437548485,
      "grad_norm": 15.638184547424316,
      "learning_rate": 1.4888366627497062e-05,
      "loss": 1.1493,
      "step": 365
    },
    {
      "epoch": 0.2839410395655547,
      "grad_norm": 22.125505447387695,
      "learning_rate": 1.4929494712103406e-05,
      "loss": 2.3626,
      "step": 366
    },
    {
      "epoch": 0.28471683475562454,
      "grad_norm": 23.756380081176758,
      "learning_rate": 1.4970622796709751e-05,
      "loss": 2.1746,
      "step": 367
    },
    {
      "epoch": 0.28549262994569435,
      "grad_norm": 14.218887329101562,
      "learning_rate": 1.5011750881316097e-05,
      "loss": 1.6042,
      "step": 368
    },
    {
      "epoch": 0.28626842513576417,
      "grad_norm": 24.62739372253418,
      "learning_rate": 1.5052878965922444e-05,
      "loss": 2.3684,
      "step": 369
    },
    {
      "epoch": 0.287044220325834,
      "grad_norm": 16.05254554748535,
      "learning_rate": 1.5094007050528789e-05,
      "loss": 2.2978,
      "step": 370
    },
    {
      "epoch": 0.2878200155159038,
      "grad_norm": 21.618303298950195,
      "learning_rate": 1.5135135135135134e-05,
      "loss": 2.4572,
      "step": 371
    },
    {
      "epoch": 0.2885958107059736,
      "grad_norm": 15.635889053344727,
      "learning_rate": 1.5176263219741478e-05,
      "loss": 1.3686,
      "step": 372
    },
    {
      "epoch": 0.28937160589604344,
      "grad_norm": 2.211442470550537,
      "learning_rate": 1.5217391304347825e-05,
      "loss": 0.0768,
      "step": 373
    },
    {
      "epoch": 0.29014740108611325,
      "grad_norm": 17.59386444091797,
      "learning_rate": 1.525851938895417e-05,
      "loss": 2.0374,
      "step": 374
    },
    {
      "epoch": 0.29092319627618307,
      "grad_norm": 13.077046394348145,
      "learning_rate": 1.5299647473560515e-05,
      "loss": 0.8662,
      "step": 375
    },
    {
      "epoch": 0.2916989914662529,
      "grad_norm": 17.446516036987305,
      "learning_rate": 1.534077555816686e-05,
      "loss": 2.145,
      "step": 376
    },
    {
      "epoch": 0.2924747866563227,
      "grad_norm": 19.174341201782227,
      "learning_rate": 1.5381903642773206e-05,
      "loss": 2.2876,
      "step": 377
    },
    {
      "epoch": 0.2932505818463926,
      "grad_norm": 17.09736442565918,
      "learning_rate": 1.542303172737955e-05,
      "loss": 2.3548,
      "step": 378
    },
    {
      "epoch": 0.2940263770364624,
      "grad_norm": 11.424643516540527,
      "learning_rate": 1.5464159811985896e-05,
      "loss": 0.8359,
      "step": 379
    },
    {
      "epoch": 0.2948021722265322,
      "grad_norm": 11.573511123657227,
      "learning_rate": 1.5505287896592242e-05,
      "loss": 1.1812,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_Qnli-dev_cosine_accuracy": 0.6640625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9027425050735474,
      "eval_Qnli-dev_cosine_ap": 0.6850466461497646,
      "eval_Qnli-dev_cosine_f1": 0.6601626016260163,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7795690298080444,
      "eval_Qnli-dev_cosine_precision": 0.5356200527704486,
      "eval_Qnli-dev_cosine_recall": 0.8601694915254238,
      "eval_Qnli-dev_dot_accuracy": 0.65234375,
      "eval_Qnli-dev_dot_accuracy_threshold": 509.9356689453125,
      "eval_Qnli-dev_dot_ap": 0.6203506873347397,
      "eval_Qnli-dev_dot_f1": 0.6473988439306358,
      "eval_Qnli-dev_dot_f1_threshold": 384.783203125,
      "eval_Qnli-dev_dot_precision": 0.49122807017543857,
      "eval_Qnli-dev_dot_recall": 0.9491525423728814,
      "eval_Qnli-dev_euclidean_accuracy": 0.6640625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.7774658203125,
      "eval_Qnli-dev_euclidean_ap": 0.6843744819455305,
      "eval_Qnli-dev_euclidean_f1": 0.6635367762128326,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.764877319335938,
      "eval_Qnli-dev_euclidean_precision": 0.5260545905707196,
      "eval_Qnli-dev_euclidean_recall": 0.8983050847457628,
      "eval_Qnli-dev_manhattan_accuracy": 0.66796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 223.02120971679688,
      "eval_Qnli-dev_manhattan_ap": 0.6851966405501015,
      "eval_Qnli-dev_manhattan_f1": 0.665625,
      "eval_Qnli-dev_manhattan_f1_threshold": 294.8950500488281,
      "eval_Qnli-dev_manhattan_precision": 0.5272277227722773,
      "eval_Qnli-dev_manhattan_recall": 0.902542372881356,
      "eval_Qnli-dev_max_accuracy": 0.66796875,
      "eval_Qnli-dev_max_accuracy_threshold": 509.9356689453125,
      "eval_Qnli-dev_max_ap": 0.6851966405501015,
      "eval_Qnli-dev_max_f1": 0.665625,
      "eval_Qnli-dev_max_f1_threshold": 384.783203125,
      "eval_Qnli-dev_max_precision": 0.5356200527704486,
      "eval_Qnli-dev_max_recall": 0.9491525423728814,
      "eval_allNLI-dev_cosine_accuracy": 0.705078125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9008569717407227,
      "eval_allNLI-dev_cosine_ap": 0.5531787103766541,
      "eval_allNLI-dev_cosine_f1": 0.5574387947269304,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7870105504989624,
      "eval_allNLI-dev_cosine_precision": 0.4134078212290503,
      "eval_allNLI-dev_cosine_recall": 0.8554913294797688,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 554.8272705078125,
      "eval_allNLI-dev_dot_ap": 0.44573561475351475,
      "eval_allNLI-dev_dot_f1": 0.5312499999999999,
      "eval_allNLI-dev_dot_f1_threshold": 415.10894775390625,
      "eval_allNLI-dev_dot_precision": 0.37965260545905705,
      "eval_allNLI-dev_dot_recall": 0.884393063583815,
      "eval_allNLI-dev_euclidean_accuracy": 0.70703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.18548583984375,
      "eval_allNLI-dev_euclidean_ap": 0.5500950729176494,
      "eval_allNLI-dev_euclidean_f1": 0.5668016194331984,
      "eval_allNLI-dev_euclidean_f1_threshold": 15.04577922821045,
      "eval_allNLI-dev_euclidean_precision": 0.43613707165109034,
      "eval_allNLI-dev_euclidean_recall": 0.8092485549132948,
      "eval_allNLI-dev_manhattan_accuracy": 0.703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 193.99375915527344,
      "eval_allNLI-dev_manhattan_ap": 0.5517183166468855,
      "eval_allNLI-dev_manhattan_f1": 0.5609756097560975,
      "eval_allNLI-dev_manhattan_f1_threshold": 266.77337646484375,
      "eval_allNLI-dev_manhattan_precision": 0.43260188087774293,
      "eval_allNLI-dev_manhattan_recall": 0.7976878612716763,
      "eval_allNLI-dev_max_accuracy": 0.70703125,
      "eval_allNLI-dev_max_accuracy_threshold": 554.8272705078125,
      "eval_allNLI-dev_max_ap": 0.5531787103766541,
      "eval_allNLI-dev_max_f1": 0.5668016194331984,
      "eval_allNLI-dev_max_f1_threshold": 415.10894775390625,
      "eval_allNLI-dev_max_precision": 0.43613707165109034,
      "eval_allNLI-dev_max_recall": 0.884393063583815,
      "eval_sequential_score": 0.6851966405501015,
      "eval_sts-test_pearson_cosine": 0.7583482295015535,
      "eval_sts-test_pearson_dot": 0.6652657285284738,
      "eval_sts-test_pearson_euclidean": 0.7747623802939627,
      "eval_sts-test_pearson_manhattan": 0.7802942568431033,
      "eval_sts-test_pearson_max": 0.7802942568431033,
      "eval_sts-test_spearman_cosine": 0.7967169993412055,
      "eval_sts-test_spearman_dot": 0.6482103411751988,
      "eval_sts-test_spearman_euclidean": 0.7804728732225256,
      "eval_sts-test_spearman_manhattan": 0.7852097494895438,
      "eval_sts-test_spearman_max": 0.7967169993412055,
      "eval_vitaminc-pairs_loss": 3.9984049797058105,
      "eval_vitaminc-pairs_runtime": 5.4815,
      "eval_vitaminc-pairs_samples_per_second": 23.351,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_negation-triplets_loss": 2.440089225769043,
      "eval_negation-triplets_runtime": 1.1093,
      "eval_negation-triplets_samples_per_second": 115.389,
      "eval_negation-triplets_steps_per_second": 1.803,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_scitail-pairs-pos_loss": 0.24433737993240356,
      "eval_scitail-pairs-pos_runtime": 1.2503,
      "eval_scitail-pairs-pos_samples_per_second": 102.378,
      "eval_scitail-pairs-pos_steps_per_second": 1.6,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_scitail-pairs-qa_loss": 0.2128182053565979,
      "eval_scitail-pairs-qa_runtime": 0.7635,
      "eval_scitail-pairs-qa_samples_per_second": 167.654,
      "eval_scitail-pairs-qa_steps_per_second": 2.62,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_xsum-pairs_loss": 1.0225056409835815,
      "eval_xsum-pairs_runtime": 3.9203,
      "eval_xsum-pairs_samples_per_second": 32.65,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_sciq_pairs_loss": 0.1557704657316208,
      "eval_sciq_pairs_runtime": 5.8827,
      "eval_sciq_pairs_samples_per_second": 21.759,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_qasc_pairs_loss": 1.5930508375167847,
      "eval_qasc_pairs_runtime": 0.9026,
      "eval_qasc_pairs_samples_per_second": 141.812,
      "eval_qasc_pairs_steps_per_second": 2.216,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_openbookqa_pairs_loss": 2.7589190006256104,
      "eval_openbookqa_pairs_runtime": 0.8539,
      "eval_openbookqa_pairs_samples_per_second": 149.905,
      "eval_openbookqa_pairs_steps_per_second": 2.342,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_msmarco_pairs_loss": 1.4480749368667603,
      "eval_msmarco_pairs_runtime": 1.962,
      "eval_msmarco_pairs_samples_per_second": 65.24,
      "eval_msmarco_pairs_steps_per_second": 1.019,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_nq_pairs_loss": 2.1773812770843506,
      "eval_nq_pairs_runtime": 3.3202,
      "eval_nq_pairs_samples_per_second": 38.551,
      "eval_nq_pairs_steps_per_second": 0.602,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_trivia_pairs_loss": 1.9234707355499268,
      "eval_trivia_pairs_runtime": 4.4787,
      "eval_trivia_pairs_samples_per_second": 28.58,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_gooaq_pairs_loss": 1.5105968713760376,
      "eval_gooaq_pairs_runtime": 1.4668,
      "eval_gooaq_pairs_samples_per_second": 87.263,
      "eval_gooaq_pairs_steps_per_second": 1.363,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_paws-pos_loss": 0.06424460560083389,
      "eval_paws-pos_runtime": 1.0306,
      "eval_paws-pos_samples_per_second": 124.201,
      "eval_paws-pos_steps_per_second": 1.941,
      "step": 380
    },
    {
      "epoch": 0.2948021722265322,
      "eval_global_dataset_loss": 0.9622049927711487,
      "eval_global_dataset_runtime": 19.4149,
      "eval_global_dataset_samples_per_second": 21.427,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 380
    },
    {
      "epoch": 0.295577967416602,
      "grad_norm": 10.749715805053711,
      "learning_rate": 1.554641598119859e-05,
      "loss": 0.7859,
      "step": 381
    },
    {
      "epoch": 0.29635376260667184,
      "grad_norm": 11.390009880065918,
      "learning_rate": 1.5587544065804936e-05,
      "loss": 0.9975,
      "step": 382
    },
    {
      "epoch": 0.29712955779674166,
      "grad_norm": 9.9592866897583,
      "learning_rate": 1.5628672150411278e-05,
      "loss": 0.7058,
      "step": 383
    },
    {
      "epoch": 0.2979053529868115,
      "grad_norm": 13.89486026763916,
      "learning_rate": 1.5669800235017623e-05,
      "loss": 1.2329,
      "step": 384
    },
    {
      "epoch": 0.2986811481768813,
      "grad_norm": 12.893826484680176,
      "learning_rate": 1.571092831962397e-05,
      "loss": 1.3389,
      "step": 385
    },
    {
      "epoch": 0.2994569433669511,
      "grad_norm": 17.778247833251953,
      "learning_rate": 1.5752056404230317e-05,
      "loss": 2.3682,
      "step": 386
    },
    {
      "epoch": 0.30023273855702093,
      "grad_norm": 15.36402416229248,
      "learning_rate": 1.5793184488836662e-05,
      "loss": 2.6586,
      "step": 387
    },
    {
      "epoch": 0.30100853374709075,
      "grad_norm": 10.452804565429688,
      "learning_rate": 1.5834312573443007e-05,
      "loss": 0.7775,
      "step": 388
    },
    {
      "epoch": 0.30178432893716056,
      "grad_norm": 14.66141128540039,
      "learning_rate": 1.5875440658049353e-05,
      "loss": 2.5431,
      "step": 389
    },
    {
      "epoch": 0.30256012412723043,
      "grad_norm": 14.61391544342041,
      "learning_rate": 1.5916568742655698e-05,
      "loss": 0.7388,
      "step": 390
    },
    {
      "epoch": 0.30333591931730025,
      "grad_norm": 19.732927322387695,
      "learning_rate": 1.5957696827262043e-05,
      "loss": 2.1497,
      "step": 391
    },
    {
      "epoch": 0.30411171450737007,
      "grad_norm": 12.427021980285645,
      "learning_rate": 1.599882491186839e-05,
      "loss": 0.9127,
      "step": 392
    },
    {
      "epoch": 0.3048875096974399,
      "grad_norm": 19.227365493774414,
      "learning_rate": 1.6039952996474734e-05,
      "loss": 2.4302,
      "step": 393
    },
    {
      "epoch": 0.3056633048875097,
      "grad_norm": 13.65877628326416,
      "learning_rate": 1.608108108108108e-05,
      "loss": 1.0674,
      "step": 394
    },
    {
      "epoch": 0.3064391000775795,
      "grad_norm": 25.27019691467285,
      "learning_rate": 1.6122209165687425e-05,
      "loss": 3.9795,
      "step": 395
    },
    {
      "epoch": 0.30721489526764933,
      "grad_norm": 19.40943717956543,
      "learning_rate": 1.616333725029377e-05,
      "loss": 2.3552,
      "step": 396
    },
    {
      "epoch": 0.30799069045771915,
      "grad_norm": 2.705491542816162,
      "learning_rate": 1.6204465334900115e-05,
      "loss": 0.0934,
      "step": 397
    },
    {
      "epoch": 0.30876648564778897,
      "grad_norm": 11.990962028503418,
      "learning_rate": 1.624559341950646e-05,
      "loss": 1.7597,
      "step": 398
    },
    {
      "epoch": 0.3095422808378588,
      "grad_norm": 11.044981956481934,
      "learning_rate": 1.628672150411281e-05,
      "loss": 0.6345,
      "step": 399
    },
    {
      "epoch": 0.3103180760279286,
      "grad_norm": 16.41925811767578,
      "learning_rate": 1.632784958871915e-05,
      "loss": 2.0666,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_Qnli-dev_cosine_accuracy": 0.673828125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8843217492103577,
      "eval_Qnli-dev_cosine_ap": 0.6894082661342746,
      "eval_Qnli-dev_cosine_f1": 0.6605783866057838,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7470111846923828,
      "eval_Qnli-dev_cosine_precision": 0.5154394299287411,
      "eval_Qnli-dev_cosine_recall": 0.9194915254237288,
      "eval_Qnli-dev_dot_accuracy": 0.62890625,
      "eval_Qnli-dev_dot_accuracy_threshold": 506.17962646484375,
      "eval_Qnli-dev_dot_ap": 0.6112775051641957,
      "eval_Qnli-dev_dot_f1": 0.6456043956043955,
      "eval_Qnli-dev_dot_f1_threshold": 336.57537841796875,
      "eval_Qnli-dev_dot_precision": 0.47764227642276424,
      "eval_Qnli-dev_dot_recall": 0.9957627118644068,
      "eval_Qnli-dev_euclidean_accuracy": 0.677734375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.53748893737793,
      "eval_Qnli-dev_euclidean_ap": 0.6900341176815967,
      "eval_Qnli-dev_euclidean_f1": 0.6621848739495799,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.495328903198242,
      "eval_Qnli-dev_euclidean_precision": 0.5487465181058496,
      "eval_Qnli-dev_euclidean_recall": 0.8347457627118644,
      "eval_Qnli-dev_manhattan_accuracy": 0.669921875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 213.0938720703125,
      "eval_Qnli-dev_manhattan_ap": 0.6924573404388727,
      "eval_Qnli-dev_manhattan_f1": 0.6600660066006601,
      "eval_Qnli-dev_manhattan_f1_threshold": 278.85546875,
      "eval_Qnli-dev_manhattan_precision": 0.5405405405405406,
      "eval_Qnli-dev_manhattan_recall": 0.847457627118644,
      "eval_Qnli-dev_max_accuracy": 0.677734375,
      "eval_Qnli-dev_max_accuracy_threshold": 506.17962646484375,
      "eval_Qnli-dev_max_ap": 0.6924573404388727,
      "eval_Qnli-dev_max_f1": 0.6621848739495799,
      "eval_Qnli-dev_max_f1_threshold": 336.57537841796875,
      "eval_Qnli-dev_max_precision": 0.5487465181058496,
      "eval_Qnli-dev_max_recall": 0.9957627118644068,
      "eval_allNLI-dev_cosine_accuracy": 0.708984375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.917401909828186,
      "eval_allNLI-dev_cosine_ap": 0.5655492068366275,
      "eval_allNLI-dev_cosine_f1": 0.583143507972665,
      "eval_allNLI-dev_cosine_f1_threshold": 0.83958500623703,
      "eval_allNLI-dev_cosine_precision": 0.48120300751879697,
      "eval_allNLI-dev_cosine_recall": 0.7398843930635838,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 591.0133056640625,
      "eval_allNLI-dev_dot_ap": 0.46233126222631415,
      "eval_allNLI-dev_dot_f1": 0.5340909090909091,
      "eval_allNLI-dev_dot_f1_threshold": 436.5849304199219,
      "eval_allNLI-dev_dot_precision": 0.3971830985915493,
      "eval_allNLI-dev_dot_recall": 0.815028901734104,
      "eval_allNLI-dev_euclidean_accuracy": 0.7109375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.90230941772461,
      "eval_allNLI-dev_euclidean_ap": 0.5614934705862846,
      "eval_allNLI-dev_euclidean_f1": 0.5873015873015873,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.479818344116211,
      "eval_allNLI-dev_euclidean_precision": 0.5414634146341464,
      "eval_allNLI-dev_euclidean_recall": 0.6416184971098265,
      "eval_allNLI-dev_manhattan_accuracy": 0.703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 177.12820434570312,
      "eval_allNLI-dev_manhattan_ap": 0.5630971701533405,
      "eval_allNLI-dev_manhattan_f1": 0.5906040268456376,
      "eval_allNLI-dev_manhattan_f1_threshold": 244.14511108398438,
      "eval_allNLI-dev_manhattan_precision": 0.48175182481751827,
      "eval_allNLI-dev_manhattan_recall": 0.7630057803468208,
      "eval_allNLI-dev_max_accuracy": 0.7109375,
      "eval_allNLI-dev_max_accuracy_threshold": 591.0133056640625,
      "eval_allNLI-dev_max_ap": 0.5655492068366275,
      "eval_allNLI-dev_max_f1": 0.5906040268456376,
      "eval_allNLI-dev_max_f1_threshold": 436.5849304199219,
      "eval_allNLI-dev_max_precision": 0.5414634146341464,
      "eval_allNLI-dev_max_recall": 0.815028901734104,
      "eval_sequential_score": 0.6924573404388727,
      "eval_sts-test_pearson_cosine": 0.7516962916367249,
      "eval_sts-test_pearson_dot": 0.6565190583762249,
      "eval_sts-test_pearson_euclidean": 0.7729158137339595,
      "eval_sts-test_pearson_manhattan": 0.7778342890767319,
      "eval_sts-test_pearson_max": 0.7778342890767319,
      "eval_sts-test_spearman_cosine": 0.7946422413605775,
      "eval_sts-test_spearman_dot": 0.6443914922843637,
      "eval_sts-test_spearman_euclidean": 0.779666276487207,
      "eval_sts-test_spearman_manhattan": 0.7822102066922625,
      "eval_sts-test_spearman_max": 0.7946422413605775,
      "eval_vitaminc-pairs_loss": 3.804929494857788,
      "eval_vitaminc-pairs_runtime": 5.4301,
      "eval_vitaminc-pairs_samples_per_second": 23.572,
      "eval_vitaminc-pairs_steps_per_second": 0.368,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_negation-triplets_loss": 2.425306797027588,
      "eval_negation-triplets_runtime": 1.0649,
      "eval_negation-triplets_samples_per_second": 120.194,
      "eval_negation-triplets_steps_per_second": 1.878,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_scitail-pairs-pos_loss": 0.24340492486953735,
      "eval_scitail-pairs-pos_runtime": 1.2486,
      "eval_scitail-pairs-pos_samples_per_second": 102.514,
      "eval_scitail-pairs-pos_steps_per_second": 1.602,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_scitail-pairs-qa_loss": 0.22168239951133728,
      "eval_scitail-pairs-qa_runtime": 0.7662,
      "eval_scitail-pairs-qa_samples_per_second": 167.053,
      "eval_scitail-pairs-qa_steps_per_second": 2.61,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_xsum-pairs_loss": 1.0453300476074219,
      "eval_xsum-pairs_runtime": 3.925,
      "eval_xsum-pairs_samples_per_second": 32.611,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_sciq_pairs_loss": 0.15400780737400055,
      "eval_sciq_pairs_runtime": 5.901,
      "eval_sciq_pairs_samples_per_second": 21.691,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_qasc_pairs_loss": 1.3813235759735107,
      "eval_qasc_pairs_runtime": 0.9127,
      "eval_qasc_pairs_samples_per_second": 140.242,
      "eval_qasc_pairs_steps_per_second": 2.191,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_openbookqa_pairs_loss": 2.546370029449463,
      "eval_openbookqa_pairs_runtime": 0.8645,
      "eval_openbookqa_pairs_samples_per_second": 148.067,
      "eval_openbookqa_pairs_steps_per_second": 2.314,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_msmarco_pairs_loss": 1.4181283712387085,
      "eval_msmarco_pairs_runtime": 1.9865,
      "eval_msmarco_pairs_samples_per_second": 64.434,
      "eval_msmarco_pairs_steps_per_second": 1.007,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_nq_pairs_loss": 2.1880569458007812,
      "eval_nq_pairs_runtime": 3.3615,
      "eval_nq_pairs_samples_per_second": 38.078,
      "eval_nq_pairs_steps_per_second": 0.595,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_trivia_pairs_loss": 1.8544824123382568,
      "eval_trivia_pairs_runtime": 4.4873,
      "eval_trivia_pairs_samples_per_second": 28.525,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_gooaq_pairs_loss": 1.456693410873413,
      "eval_gooaq_pairs_runtime": 1.4656,
      "eval_gooaq_pairs_samples_per_second": 87.335,
      "eval_gooaq_pairs_steps_per_second": 1.365,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_paws-pos_loss": 0.06181538105010986,
      "eval_paws-pos_runtime": 1.0319,
      "eval_paws-pos_samples_per_second": 124.046,
      "eval_paws-pos_steps_per_second": 1.938,
      "step": 400
    },
    {
      "epoch": 0.3103180760279286,
      "eval_global_dataset_loss": 0.9175137877464294,
      "eval_global_dataset_runtime": 19.4041,
      "eval_global_dataset_samples_per_second": 21.439,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 400
    },
    {
      "epoch": 0.3110938712179985,
      "grad_norm": 19.21514129638672,
      "learning_rate": 1.6368977673325496e-05,
      "loss": 2.4715,
      "step": 401
    },
    {
      "epoch": 0.3118696664080683,
      "grad_norm": 9.850366592407227,
      "learning_rate": 1.641010575793184e-05,
      "loss": 0.6239,
      "step": 402
    },
    {
      "epoch": 0.3126454615981381,
      "grad_norm": 1.7789502143859863,
      "learning_rate": 1.645123384253819e-05,
      "loss": 0.1026,
      "step": 403
    },
    {
      "epoch": 0.3134212567882079,
      "grad_norm": 10.798182487487793,
      "learning_rate": 1.6492361927144535e-05,
      "loss": 0.5445,
      "step": 404
    },
    {
      "epoch": 0.31419705197827774,
      "grad_norm": 11.48928165435791,
      "learning_rate": 1.653349001175088e-05,
      "loss": 0.8147,
      "step": 405
    },
    {
      "epoch": 0.31497284716834756,
      "grad_norm": 12.467869758605957,
      "learning_rate": 1.6574618096357226e-05,
      "loss": 0.7878,
      "step": 406
    },
    {
      "epoch": 0.3157486423584174,
      "grad_norm": 15.528653144836426,
      "learning_rate": 1.661574618096357e-05,
      "loss": 1.1501,
      "step": 407
    },
    {
      "epoch": 0.3165244375484872,
      "grad_norm": 12.029793739318848,
      "learning_rate": 1.6656874265569917e-05,
      "loss": 0.9747,
      "step": 408
    },
    {
      "epoch": 0.317300232738557,
      "grad_norm": 22.320796966552734,
      "learning_rate": 1.6698002350176262e-05,
      "loss": 2.3754,
      "step": 409
    },
    {
      "epoch": 0.3180760279286268,
      "grad_norm": 25.08719825744629,
      "learning_rate": 1.6739130434782607e-05,
      "loss": 4.0373,
      "step": 410
    },
    {
      "epoch": 0.31885182311869664,
      "grad_norm": 13.977923393249512,
      "learning_rate": 1.6780258519388953e-05,
      "loss": 0.8974,
      "step": 411
    },
    {
      "epoch": 0.31962761830876646,
      "grad_norm": 13.509927749633789,
      "learning_rate": 1.6821386603995298e-05,
      "loss": 1.2489,
      "step": 412
    },
    {
      "epoch": 0.32040341349883633,
      "grad_norm": 14.722395896911621,
      "learning_rate": 1.6862514688601643e-05,
      "loss": 0.902,
      "step": 413
    },
    {
      "epoch": 0.32117920868890615,
      "grad_norm": 18.918495178222656,
      "learning_rate": 1.690364277320799e-05,
      "loss": 1.7322,
      "step": 414
    },
    {
      "epoch": 0.32195500387897596,
      "grad_norm": 10.59786319732666,
      "learning_rate": 1.6944770857814334e-05,
      "loss": 0.6132,
      "step": 415
    },
    {
      "epoch": 0.3227307990690458,
      "grad_norm": 1.7927511930465698,
      "learning_rate": 1.6985898942420682e-05,
      "loss": 0.0822,
      "step": 416
    },
    {
      "epoch": 0.3235065942591156,
      "grad_norm": 11.786699295043945,
      "learning_rate": 1.7027027027027028e-05,
      "loss": 0.8815,
      "step": 417
    },
    {
      "epoch": 0.3242823894491854,
      "grad_norm": 1.6473735570907593,
      "learning_rate": 1.706815511163337e-05,
      "loss": 0.0377,
      "step": 418
    },
    {
      "epoch": 0.32505818463925523,
      "grad_norm": 13.123526573181152,
      "learning_rate": 1.7109283196239715e-05,
      "loss": 0.9151,
      "step": 419
    },
    {
      "epoch": 0.32583397982932505,
      "grad_norm": 19.916244506835938,
      "learning_rate": 1.7150411280846064e-05,
      "loss": 2.1843,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_Qnli-dev_cosine_accuracy": 0.673828125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8427678346633911,
      "eval_Qnli-dev_cosine_ap": 0.6999623298919331,
      "eval_Qnli-dev_cosine_f1": 0.669710806697108,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7154334187507629,
      "eval_Qnli-dev_cosine_precision": 0.5225653206650831,
      "eval_Qnli-dev_cosine_recall": 0.9322033898305084,
      "eval_Qnli-dev_dot_accuracy": 0.6484375,
      "eval_Qnli-dev_dot_accuracy_threshold": 490.5438232421875,
      "eval_Qnli-dev_dot_ap": 0.6238031701462488,
      "eval_Qnli-dev_dot_f1": 0.6474820143884892,
      "eval_Qnli-dev_dot_f1_threshold": 345.4635009765625,
      "eval_Qnli-dev_dot_precision": 0.49019607843137253,
      "eval_Qnli-dev_dot_recall": 0.9533898305084746,
      "eval_Qnli-dev_euclidean_accuracy": 0.671875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.324577331542969,
      "eval_Qnli-dev_euclidean_ap": 0.7038822156764853,
      "eval_Qnli-dev_euclidean_f1": 0.6708463949843261,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.482162475585938,
      "eval_Qnli-dev_euclidean_precision": 0.5323383084577115,
      "eval_Qnli-dev_euclidean_recall": 0.9067796610169492,
      "eval_Qnli-dev_manhattan_accuracy": 0.66796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 222.56390380859375,
      "eval_Qnli-dev_manhattan_ap": 0.6978719975511867,
      "eval_Qnli-dev_manhattan_f1": 0.6697674418604651,
      "eval_Qnli-dev_manhattan_f1_threshold": 310.0783386230469,
      "eval_Qnli-dev_manhattan_precision": 0.5281173594132029,
      "eval_Qnli-dev_manhattan_recall": 0.9152542372881356,
      "eval_Qnli-dev_max_accuracy": 0.673828125,
      "eval_Qnli-dev_max_accuracy_threshold": 490.5438232421875,
      "eval_Qnli-dev_max_ap": 0.7038822156764853,
      "eval_Qnli-dev_max_f1": 0.6708463949843261,
      "eval_Qnli-dev_max_f1_threshold": 345.4635009765625,
      "eval_Qnli-dev_max_precision": 0.5323383084577115,
      "eval_Qnli-dev_max_recall": 0.9533898305084746,
      "eval_allNLI-dev_cosine_accuracy": 0.705078125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8868391513824463,
      "eval_allNLI-dev_cosine_ap": 0.566806919379863,
      "eval_allNLI-dev_cosine_f1": 0.582441113490364,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8114951252937317,
      "eval_allNLI-dev_cosine_precision": 0.46258503401360546,
      "eval_allNLI-dev_cosine_recall": 0.7861271676300579,
      "eval_allNLI-dev_dot_accuracy": 0.685546875,
      "eval_allNLI-dev_dot_accuracy_threshold": 567.1017456054688,
      "eval_allNLI-dev_dot_ap": 0.47532857442812637,
      "eval_allNLI-dev_dot_f1": 0.5345794392523364,
      "eval_allNLI-dev_dot_f1_threshold": 416.911376953125,
      "eval_allNLI-dev_dot_precision": 0.39502762430939226,
      "eval_allNLI-dev_dot_recall": 0.8265895953757225,
      "eval_allNLI-dev_euclidean_accuracy": 0.701171875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 11.022714614868164,
      "eval_allNLI-dev_euclidean_ap": 0.5651807817319943,
      "eval_allNLI-dev_euclidean_f1": 0.5806451612903225,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.004497528076172,
      "eval_allNLI-dev_euclidean_precision": 0.4827586206896552,
      "eval_allNLI-dev_euclidean_recall": 0.7283236994219653,
      "eval_allNLI-dev_manhattan_accuracy": 0.705078125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 205.31576538085938,
      "eval_allNLI-dev_manhattan_ap": 0.5657819587898676,
      "eval_allNLI-dev_manhattan_f1": 0.5851318944844125,
      "eval_allNLI-dev_manhattan_f1_threshold": 241.74118041992188,
      "eval_allNLI-dev_manhattan_precision": 0.5,
      "eval_allNLI-dev_manhattan_recall": 0.7052023121387283,
      "eval_allNLI-dev_max_accuracy": 0.705078125,
      "eval_allNLI-dev_max_accuracy_threshold": 567.1017456054688,
      "eval_allNLI-dev_max_ap": 0.566806919379863,
      "eval_allNLI-dev_max_f1": 0.5851318944844125,
      "eval_allNLI-dev_max_f1_threshold": 416.911376953125,
      "eval_allNLI-dev_max_precision": 0.5,
      "eval_allNLI-dev_max_recall": 0.8265895953757225,
      "eval_sequential_score": 0.7038822156764853,
      "eval_sts-test_pearson_cosine": 0.7538194564602132,
      "eval_sts-test_pearson_dot": 0.6774233062016093,
      "eval_sts-test_pearson_euclidean": 0.774731843315144,
      "eval_sts-test_pearson_manhattan": 0.7787277584885369,
      "eval_sts-test_pearson_max": 0.7787277584885369,
      "eval_sts-test_spearman_cosine": 0.7933955607207358,
      "eval_sts-test_spearman_dot": 0.6663946134802414,
      "eval_sts-test_spearman_euclidean": 0.777507699393993,
      "eval_sts-test_spearman_manhattan": 0.7817543703437296,
      "eval_sts-test_spearman_max": 0.7933955607207358,
      "eval_vitaminc-pairs_loss": 4.315428733825684,
      "eval_vitaminc-pairs_runtime": 5.4742,
      "eval_vitaminc-pairs_samples_per_second": 23.382,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_negation-triplets_loss": 2.3480582237243652,
      "eval_negation-triplets_runtime": 1.0618,
      "eval_negation-triplets_samples_per_second": 120.545,
      "eval_negation-triplets_steps_per_second": 1.884,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_scitail-pairs-pos_loss": 0.23376089334487915,
      "eval_scitail-pairs-pos_runtime": 1.2206,
      "eval_scitail-pairs-pos_samples_per_second": 104.867,
      "eval_scitail-pairs-pos_steps_per_second": 1.639,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_scitail-pairs-qa_loss": 0.20903728902339935,
      "eval_scitail-pairs-qa_runtime": 0.7636,
      "eval_scitail-pairs-qa_samples_per_second": 167.621,
      "eval_scitail-pairs-qa_steps_per_second": 2.619,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_xsum-pairs_loss": 0.8867725133895874,
      "eval_xsum-pairs_runtime": 3.9137,
      "eval_xsum-pairs_samples_per_second": 32.706,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_sciq_pairs_loss": 0.1393250972032547,
      "eval_sciq_pairs_runtime": 5.9293,
      "eval_sciq_pairs_samples_per_second": 21.588,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_qasc_pairs_loss": 1.2475699186325073,
      "eval_qasc_pairs_runtime": 0.913,
      "eval_qasc_pairs_samples_per_second": 140.203,
      "eval_qasc_pairs_steps_per_second": 2.191,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_openbookqa_pairs_loss": 2.4479591846466064,
      "eval_openbookqa_pairs_runtime": 0.8791,
      "eval_openbookqa_pairs_samples_per_second": 145.61,
      "eval_openbookqa_pairs_steps_per_second": 2.275,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_msmarco_pairs_loss": 1.2587966918945312,
      "eval_msmarco_pairs_runtime": 1.9704,
      "eval_msmarco_pairs_samples_per_second": 64.96,
      "eval_msmarco_pairs_steps_per_second": 1.015,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_nq_pairs_loss": 2.0437731742858887,
      "eval_nq_pairs_runtime": 3.3317,
      "eval_nq_pairs_samples_per_second": 38.418,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_trivia_pairs_loss": 1.710050106048584,
      "eval_trivia_pairs_runtime": 4.4932,
      "eval_trivia_pairs_samples_per_second": 28.487,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_gooaq_pairs_loss": 1.3402475118637085,
      "eval_gooaq_pairs_runtime": 1.4653,
      "eval_gooaq_pairs_samples_per_second": 87.355,
      "eval_gooaq_pairs_steps_per_second": 1.365,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_paws-pos_loss": 0.05687706917524338,
      "eval_paws-pos_runtime": 1.0334,
      "eval_paws-pos_samples_per_second": 123.861,
      "eval_paws-pos_steps_per_second": 1.935,
      "step": 420
    },
    {
      "epoch": 0.32583397982932505,
      "eval_global_dataset_loss": 0.944195568561554,
      "eval_global_dataset_runtime": 19.4163,
      "eval_global_dataset_samples_per_second": 21.425,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 420
    },
    {
      "epoch": 0.32660977501939487,
      "grad_norm": 11.245063781738281,
      "learning_rate": 1.719153936545241e-05,
      "loss": 0.8176,
      "step": 421
    },
    {
      "epoch": 0.3273855702094647,
      "grad_norm": 12.543959617614746,
      "learning_rate": 1.7232667450058754e-05,
      "loss": 0.8948,
      "step": 422
    },
    {
      "epoch": 0.3281613653995345,
      "grad_norm": 10.850048065185547,
      "learning_rate": 1.7273795534665096e-05,
      "loss": 0.578,
      "step": 423
    },
    {
      "epoch": 0.32893716058960437,
      "grad_norm": 5.266476631164551,
      "learning_rate": 1.7314923619271445e-05,
      "loss": 0.1785,
      "step": 424
    },
    {
      "epoch": 0.3297129557796742,
      "grad_norm": 19.835979461669922,
      "learning_rate": 1.735605170387779e-05,
      "loss": 2.0945,
      "step": 425
    },
    {
      "epoch": 0.330488750969744,
      "grad_norm": 16.07326889038086,
      "learning_rate": 1.7397179788484135e-05,
      "loss": 1.0638,
      "step": 426
    },
    {
      "epoch": 0.3312645461598138,
      "grad_norm": 17.70912742614746,
      "learning_rate": 1.743830787309048e-05,
      "loss": 1.8627,
      "step": 427
    },
    {
      "epoch": 0.33204034134988364,
      "grad_norm": 25.017555236816406,
      "learning_rate": 1.7479435957696826e-05,
      "loss": 2.9704,
      "step": 428
    },
    {
      "epoch": 0.33281613653995346,
      "grad_norm": 13.582287788391113,
      "learning_rate": 1.752056404230317e-05,
      "loss": 0.8579,
      "step": 429
    },
    {
      "epoch": 0.3335919317300233,
      "grad_norm": 17.605514526367188,
      "learning_rate": 1.7561692126909516e-05,
      "loss": 1.5726,
      "step": 430
    },
    {
      "epoch": 0.3343677269200931,
      "grad_norm": 16.1927490234375,
      "learning_rate": 1.7602820211515865e-05,
      "loss": 1.5125,
      "step": 431
    },
    {
      "epoch": 0.3351435221101629,
      "grad_norm": 10.593696594238281,
      "learning_rate": 1.7643948296122207e-05,
      "loss": 0.6158,
      "step": 432
    },
    {
      "epoch": 0.3359193173002327,
      "grad_norm": 24.76272201538086,
      "learning_rate": 1.7685076380728552e-05,
      "loss": 4.0055,
      "step": 433
    },
    {
      "epoch": 0.33669511249030254,
      "grad_norm": 18.812658309936523,
      "learning_rate": 1.77262044653349e-05,
      "loss": 2.2631,
      "step": 434
    },
    {
      "epoch": 0.33747090768037236,
      "grad_norm": 18.673860549926758,
      "learning_rate": 1.7767332549941243e-05,
      "loss": 2.3096,
      "step": 435
    },
    {
      "epoch": 0.33824670287044223,
      "grad_norm": 11.739363670349121,
      "learning_rate": 1.780846063454759e-05,
      "loss": 1.0672,
      "step": 436
    },
    {
      "epoch": 0.33902249806051205,
      "grad_norm": 17.290603637695312,
      "learning_rate": 1.7849588719153933e-05,
      "loss": 2.2217,
      "step": 437
    },
    {
      "epoch": 0.33979829325058186,
      "grad_norm": 15.590789794921875,
      "learning_rate": 1.789071680376028e-05,
      "loss": 1.5531,
      "step": 438
    },
    {
      "epoch": 0.3405740884406517,
      "grad_norm": 7.4414167404174805,
      "learning_rate": 1.7931844888366627e-05,
      "loss": 0.3912,
      "step": 439
    },
    {
      "epoch": 0.3413498836307215,
      "grad_norm": 16.73564910888672,
      "learning_rate": 1.797297297297297e-05,
      "loss": 2.2856,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_Qnli-dev_cosine_accuracy": 0.666015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8762513399124146,
      "eval_Qnli-dev_cosine_ap": 0.6925226528996247,
      "eval_Qnli-dev_cosine_f1": 0.6677265500794912,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7770497798919678,
      "eval_Qnli-dev_cosine_precision": 0.5343511450381679,
      "eval_Qnli-dev_cosine_recall": 0.8898305084745762,
      "eval_Qnli-dev_dot_accuracy": 0.609375,
      "eval_Qnli-dev_dot_accuracy_threshold": 556.5031127929688,
      "eval_Qnli-dev_dot_ap": 0.5850847365923477,
      "eval_Qnli-dev_dot_f1": 0.6505681818181819,
      "eval_Qnli-dev_dot_f1_threshold": 406.6336975097656,
      "eval_Qnli-dev_dot_precision": 0.4893162393162393,
      "eval_Qnli-dev_dot_recall": 0.9703389830508474,
      "eval_Qnli-dev_euclidean_accuracy": 0.66796875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.730552673339844,
      "eval_Qnli-dev_euclidean_ap": 0.6944172611785755,
      "eval_Qnli-dev_euclidean_f1": 0.6646248085758041,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.14211654663086,
      "eval_Qnli-dev_euclidean_precision": 0.5203836930455635,
      "eval_Qnli-dev_euclidean_recall": 0.9194915254237288,
      "eval_Qnli-dev_manhattan_accuracy": 0.669921875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 214.77349853515625,
      "eval_Qnli-dev_manhattan_ap": 0.6931032398015755,
      "eval_Qnli-dev_manhattan_f1": 0.6720257234726689,
      "eval_Qnli-dev_manhattan_f1_threshold": 289.2326354980469,
      "eval_Qnli-dev_manhattan_precision": 0.5414507772020726,
      "eval_Qnli-dev_manhattan_recall": 0.885593220338983,
      "eval_Qnli-dev_max_accuracy": 0.669921875,
      "eval_Qnli-dev_max_accuracy_threshold": 556.5031127929688,
      "eval_Qnli-dev_max_ap": 0.6944172611785755,
      "eval_Qnli-dev_max_f1": 0.6720257234726689,
      "eval_Qnli-dev_max_f1_threshold": 406.6336975097656,
      "eval_Qnli-dev_max_precision": 0.5414507772020726,
      "eval_Qnli-dev_max_recall": 0.9703389830508474,
      "eval_allNLI-dev_cosine_accuracy": 0.705078125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9292815923690796,
      "eval_allNLI-dev_cosine_ap": 0.5708892349016189,
      "eval_allNLI-dev_cosine_f1": 0.5858123569794049,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8687143921852112,
      "eval_allNLI-dev_cosine_precision": 0.48484848484848486,
      "eval_allNLI-dev_cosine_recall": 0.7398843930635838,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 573.7271118164062,
      "eval_allNLI-dev_dot_ap": 0.4435855844051997,
      "eval_allNLI-dev_dot_f1": 0.5302013422818791,
      "eval_allNLI-dev_dot_f1_threshold": 430.77691650390625,
      "eval_allNLI-dev_dot_precision": 0.3735224586288416,
      "eval_allNLI-dev_dot_recall": 0.9132947976878613,
      "eval_allNLI-dev_euclidean_accuracy": 0.703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.651548385620117,
      "eval_allNLI-dev_euclidean_ap": 0.5642096320775464,
      "eval_allNLI-dev_euclidean_f1": 0.5790754257907543,
      "eval_allNLI-dev_euclidean_f1_threshold": 11.96162223815918,
      "eval_allNLI-dev_euclidean_precision": 0.5,
      "eval_allNLI-dev_euclidean_recall": 0.6878612716763006,
      "eval_allNLI-dev_manhattan_accuracy": 0.703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 180.98876953125,
      "eval_allNLI-dev_manhattan_ap": 0.5649666695504983,
      "eval_allNLI-dev_manhattan_f1": 0.5995085995085995,
      "eval_allNLI-dev_manhattan_f1_threshold": 210.06790161132812,
      "eval_allNLI-dev_manhattan_precision": 0.5213675213675214,
      "eval_allNLI-dev_manhattan_recall": 0.7052023121387283,
      "eval_allNLI-dev_max_accuracy": 0.705078125,
      "eval_allNLI-dev_max_accuracy_threshold": 573.7271118164062,
      "eval_allNLI-dev_max_ap": 0.5708892349016189,
      "eval_allNLI-dev_max_f1": 0.5995085995085995,
      "eval_allNLI-dev_max_f1_threshold": 430.77691650390625,
      "eval_allNLI-dev_max_precision": 0.5213675213675214,
      "eval_allNLI-dev_max_recall": 0.9132947976878613,
      "eval_sequential_score": 0.6944172611785755,
      "eval_sts-test_pearson_cosine": 0.7522625123254352,
      "eval_sts-test_pearson_dot": 0.6403081572846376,
      "eval_sts-test_pearson_euclidean": 0.7739743366360256,
      "eval_sts-test_pearson_manhattan": 0.7761899710973759,
      "eval_sts-test_pearson_max": 0.7761899710973759,
      "eval_sts-test_spearman_cosine": 0.7913403590413358,
      "eval_sts-test_spearman_dot": 0.6275253683836046,
      "eval_sts-test_spearman_euclidean": 0.7763585317527231,
      "eval_sts-test_spearman_manhattan": 0.7771581025400033,
      "eval_sts-test_spearman_max": 0.7913403590413358,
      "eval_vitaminc-pairs_loss": 3.9062092304229736,
      "eval_vitaminc-pairs_runtime": 5.4684,
      "eval_vitaminc-pairs_samples_per_second": 23.407,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_negation-triplets_loss": 2.359525680541992,
      "eval_negation-triplets_runtime": 1.0733,
      "eval_negation-triplets_samples_per_second": 119.255,
      "eval_negation-triplets_steps_per_second": 1.863,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_scitail-pairs-pos_loss": 0.2214130312204361,
      "eval_scitail-pairs-pos_runtime": 1.2084,
      "eval_scitail-pairs-pos_samples_per_second": 105.927,
      "eval_scitail-pairs-pos_steps_per_second": 1.655,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_scitail-pairs-qa_loss": 0.19177046418190002,
      "eval_scitail-pairs-qa_runtime": 0.7703,
      "eval_scitail-pairs-qa_samples_per_second": 166.165,
      "eval_scitail-pairs-qa_steps_per_second": 2.596,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_xsum-pairs_loss": 0.8537141680717468,
      "eval_xsum-pairs_runtime": 3.9361,
      "eval_xsum-pairs_samples_per_second": 32.519,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_sciq_pairs_loss": 0.12183572351932526,
      "eval_sciq_pairs_runtime": 5.8953,
      "eval_sciq_pairs_samples_per_second": 21.712,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_qasc_pairs_loss": 1.2399531602859497,
      "eval_qasc_pairs_runtime": 0.9066,
      "eval_qasc_pairs_samples_per_second": 141.181,
      "eval_qasc_pairs_steps_per_second": 2.206,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_openbookqa_pairs_loss": 2.3348124027252197,
      "eval_openbookqa_pairs_runtime": 0.8824,
      "eval_openbookqa_pairs_samples_per_second": 145.065,
      "eval_openbookqa_pairs_steps_per_second": 2.267,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_msmarco_pairs_loss": 1.333595633506775,
      "eval_msmarco_pairs_runtime": 1.9748,
      "eval_msmarco_pairs_samples_per_second": 64.817,
      "eval_msmarco_pairs_steps_per_second": 1.013,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_nq_pairs_loss": 1.7639641761779785,
      "eval_nq_pairs_runtime": 3.3313,
      "eval_nq_pairs_samples_per_second": 38.423,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_trivia_pairs_loss": 1.4022107124328613,
      "eval_trivia_pairs_runtime": 4.4857,
      "eval_trivia_pairs_samples_per_second": 28.535,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_gooaq_pairs_loss": 1.3557066917419434,
      "eval_gooaq_pairs_runtime": 1.4925,
      "eval_gooaq_pairs_samples_per_second": 85.759,
      "eval_gooaq_pairs_steps_per_second": 1.34,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_paws-pos_loss": 0.07117103785276413,
      "eval_paws-pos_runtime": 1.0283,
      "eval_paws-pos_samples_per_second": 124.474,
      "eval_paws-pos_steps_per_second": 1.945,
      "step": 440
    },
    {
      "epoch": 0.3413498836307215,
      "eval_global_dataset_loss": 0.7811084985733032,
      "eval_global_dataset_runtime": 19.4164,
      "eval_global_dataset_samples_per_second": 21.425,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 440
    },
    {
      "epoch": 0.3421256788207913,
      "grad_norm": 9.4876708984375,
      "learning_rate": 1.8014101057579318e-05,
      "loss": 0.7398,
      "step": 441
    },
    {
      "epoch": 0.34290147401086113,
      "grad_norm": 7.871079444885254,
      "learning_rate": 1.8055229142185663e-05,
      "loss": 0.4766,
      "step": 442
    },
    {
      "epoch": 0.34367726920093095,
      "grad_norm": 11.031767845153809,
      "learning_rate": 1.8096357226792005e-05,
      "loss": 1.6592,
      "step": 443
    },
    {
      "epoch": 0.34445306439100076,
      "grad_norm": 7.088497638702393,
      "learning_rate": 1.8137485311398354e-05,
      "loss": 0.3498,
      "step": 444
    },
    {
      "epoch": 0.3452288595810706,
      "grad_norm": 15.35033893585205,
      "learning_rate": 1.81786133960047e-05,
      "loss": 1.818,
      "step": 445
    },
    {
      "epoch": 0.3460046547711404,
      "grad_norm": 18.451932907104492,
      "learning_rate": 1.8219741480611044e-05,
      "loss": 2.332,
      "step": 446
    },
    {
      "epoch": 0.3467804499612102,
      "grad_norm": 8.21351146697998,
      "learning_rate": 1.826086956521739e-05,
      "loss": 0.6782,
      "step": 447
    },
    {
      "epoch": 0.3475562451512801,
      "grad_norm": 15.57119369506836,
      "learning_rate": 1.830199764982374e-05,
      "loss": 1.529,
      "step": 448
    },
    {
      "epoch": 0.3483320403413499,
      "grad_norm": 14.127723693847656,
      "learning_rate": 1.834312573443008e-05,
      "loss": 1.3216,
      "step": 449
    },
    {
      "epoch": 0.3491078355314197,
      "grad_norm": 2.077221155166626,
      "learning_rate": 1.8384253819036426e-05,
      "loss": 0.138,
      "step": 450
    },
    {
      "epoch": 0.34988363072148954,
      "grad_norm": 11.093355178833008,
      "learning_rate": 1.842538190364277e-05,
      "loss": 1.1062,
      "step": 451
    },
    {
      "epoch": 0.35065942591155935,
      "grad_norm": 17.88471794128418,
      "learning_rate": 1.8466509988249116e-05,
      "loss": 1.6739,
      "step": 452
    },
    {
      "epoch": 0.35143522110162917,
      "grad_norm": 12.845499038696289,
      "learning_rate": 1.8507638072855465e-05,
      "loss": 0.7182,
      "step": 453
    },
    {
      "epoch": 0.352211016291699,
      "grad_norm": 20.143211364746094,
      "learning_rate": 1.8548766157461807e-05,
      "loss": 2.3198,
      "step": 454
    },
    {
      "epoch": 0.3529868114817688,
      "grad_norm": 20.101293563842773,
      "learning_rate": 1.8589894242068152e-05,
      "loss": 2.1016,
      "step": 455
    },
    {
      "epoch": 0.3537626066718386,
      "grad_norm": 13.362924575805664,
      "learning_rate": 1.86310223266745e-05,
      "loss": 0.8252,
      "step": 456
    },
    {
      "epoch": 0.35453840186190844,
      "grad_norm": 12.254059791564941,
      "learning_rate": 1.8672150411280843e-05,
      "loss": 0.7597,
      "step": 457
    },
    {
      "epoch": 0.35531419705197825,
      "grad_norm": 11.719807624816895,
      "learning_rate": 1.871327849588719e-05,
      "loss": 0.6912,
      "step": 458
    },
    {
      "epoch": 0.3560899922420481,
      "grad_norm": 18.092191696166992,
      "learning_rate": 1.8754406580493537e-05,
      "loss": 1.8851,
      "step": 459
    },
    {
      "epoch": 0.35686578743211794,
      "grad_norm": 13.485638618469238,
      "learning_rate": 1.879553466509988e-05,
      "loss": 1.4324,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_Qnli-dev_cosine_accuracy": 0.666015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8486638069152832,
      "eval_Qnli-dev_cosine_ap": 0.6779853210254181,
      "eval_Qnli-dev_cosine_f1": 0.6555386949924127,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7324475049972534,
      "eval_Qnli-dev_cosine_precision": 0.5106382978723404,
      "eval_Qnli-dev_cosine_recall": 0.9152542372881356,
      "eval_Qnli-dev_dot_accuracy": 0.638671875,
      "eval_Qnli-dev_dot_accuracy_threshold": 477.6387939453125,
      "eval_Qnli-dev_dot_ap": 0.6137232223987072,
      "eval_Qnli-dev_dot_f1": 0.6473029045643155,
      "eval_Qnli-dev_dot_f1_threshold": 316.2604675292969,
      "eval_Qnli-dev_dot_precision": 0.4804928131416838,
      "eval_Qnli-dev_dot_recall": 0.9915254237288136,
      "eval_Qnli-dev_euclidean_accuracy": 0.658203125,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.233789443969727,
      "eval_Qnli-dev_euclidean_ap": 0.6752873255687661,
      "eval_Qnli-dev_euclidean_f1": 0.665474060822898,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.972784042358398,
      "eval_Qnli-dev_euclidean_precision": 0.5758513931888545,
      "eval_Qnli-dev_euclidean_recall": 0.788135593220339,
      "eval_Qnli-dev_manhattan_accuracy": 0.654296875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 210.17254638671875,
      "eval_Qnli-dev_manhattan_ap": 0.6766703462138357,
      "eval_Qnli-dev_manhattan_f1": 0.660436137071651,
      "eval_Qnli-dev_manhattan_f1_threshold": 301.0316467285156,
      "eval_Qnli-dev_manhattan_precision": 0.5221674876847291,
      "eval_Qnli-dev_manhattan_recall": 0.8983050847457628,
      "eval_Qnli-dev_max_accuracy": 0.666015625,
      "eval_Qnli-dev_max_accuracy_threshold": 477.6387939453125,
      "eval_Qnli-dev_max_ap": 0.6779853210254181,
      "eval_Qnli-dev_max_f1": 0.665474060822898,
      "eval_Qnli-dev_max_f1_threshold": 316.2604675292969,
      "eval_Qnli-dev_max_precision": 0.5758513931888545,
      "eval_Qnli-dev_max_recall": 0.9915254237288136,
      "eval_allNLI-dev_cosine_accuracy": 0.701171875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9253606200218201,
      "eval_allNLI-dev_cosine_ap": 0.5573276509338424,
      "eval_allNLI-dev_cosine_f1": 0.5792079207920792,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8566697835922241,
      "eval_allNLI-dev_cosine_precision": 0.5064935064935064,
      "eval_allNLI-dev_cosine_recall": 0.6763005780346821,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 527.159423828125,
      "eval_allNLI-dev_dot_ap": 0.46690480039244775,
      "eval_allNLI-dev_dot_f1": 0.5349233390119251,
      "eval_allNLI-dev_dot_f1_threshold": 394.58905029296875,
      "eval_allNLI-dev_dot_precision": 0.37922705314009664,
      "eval_allNLI-dev_dot_recall": 0.9075144508670521,
      "eval_allNLI-dev_euclidean_accuracy": 0.701171875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.716781616210938,
      "eval_allNLI-dev_euclidean_ap": 0.5557980725767,
      "eval_allNLI-dev_euclidean_f1": 0.5794392523364487,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.963998794555664,
      "eval_allNLI-dev_euclidean_precision": 0.48627450980392156,
      "eval_allNLI-dev_euclidean_recall": 0.7167630057803468,
      "eval_allNLI-dev_manhattan_accuracy": 0.697265625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 161.34320068359375,
      "eval_allNLI-dev_manhattan_ap": 0.5567111390562576,
      "eval_allNLI-dev_manhattan_f1": 0.5927710843373494,
      "eval_allNLI-dev_manhattan_f1_threshold": 225.5025634765625,
      "eval_allNLI-dev_manhattan_precision": 0.5082644628099173,
      "eval_allNLI-dev_manhattan_recall": 0.7109826589595376,
      "eval_allNLI-dev_max_accuracy": 0.701171875,
      "eval_allNLI-dev_max_accuracy_threshold": 527.159423828125,
      "eval_allNLI-dev_max_ap": 0.5573276509338424,
      "eval_allNLI-dev_max_f1": 0.5927710843373494,
      "eval_allNLI-dev_max_f1_threshold": 394.58905029296875,
      "eval_allNLI-dev_max_precision": 0.5082644628099173,
      "eval_allNLI-dev_max_recall": 0.9075144508670521,
      "eval_sequential_score": 0.6779853210254181,
      "eval_sts-test_pearson_cosine": 0.7677608150695443,
      "eval_sts-test_pearson_dot": 0.6657705142732455,
      "eval_sts-test_pearson_euclidean": 0.7944178306135051,
      "eval_sts-test_pearson_manhattan": 0.7955685051760161,
      "eval_sts-test_pearson_max": 0.7955685051760161,
      "eval_sts-test_spearman_cosine": 0.80392642755136,
      "eval_sts-test_spearman_dot": 0.6505001737180739,
      "eval_sts-test_spearman_euclidean": 0.7943252234248809,
      "eval_sts-test_spearman_manhattan": 0.7942380927189517,
      "eval_sts-test_spearman_max": 0.80392642755136,
      "eval_vitaminc-pairs_loss": 4.100461483001709,
      "eval_vitaminc-pairs_runtime": 5.4477,
      "eval_vitaminc-pairs_samples_per_second": 23.496,
      "eval_vitaminc-pairs_steps_per_second": 0.367,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_negation-triplets_loss": 2.2808547019958496,
      "eval_negation-triplets_runtime": 1.0606,
      "eval_negation-triplets_samples_per_second": 120.687,
      "eval_negation-triplets_steps_per_second": 1.886,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_scitail-pairs-pos_loss": 0.20019960403442383,
      "eval_scitail-pairs-pos_runtime": 1.2152,
      "eval_scitail-pairs-pos_samples_per_second": 105.334,
      "eval_scitail-pairs-pos_steps_per_second": 1.646,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_scitail-pairs-qa_loss": 0.14794358611106873,
      "eval_scitail-pairs-qa_runtime": 0.7618,
      "eval_scitail-pairs-qa_samples_per_second": 168.017,
      "eval_scitail-pairs-qa_steps_per_second": 2.625,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_xsum-pairs_loss": 0.7287623882293701,
      "eval_xsum-pairs_runtime": 3.9068,
      "eval_xsum-pairs_samples_per_second": 32.764,
      "eval_xsum-pairs_steps_per_second": 0.512,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_sciq_pairs_loss": 0.1277933418750763,
      "eval_sciq_pairs_runtime": 5.8889,
      "eval_sciq_pairs_samples_per_second": 21.736,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_qasc_pairs_loss": 1.146864652633667,
      "eval_qasc_pairs_runtime": 0.9111,
      "eval_qasc_pairs_samples_per_second": 140.497,
      "eval_qasc_pairs_steps_per_second": 2.195,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_openbookqa_pairs_loss": 2.401211977005005,
      "eval_openbookqa_pairs_runtime": 0.8654,
      "eval_openbookqa_pairs_samples_per_second": 147.906,
      "eval_openbookqa_pairs_steps_per_second": 2.311,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_msmarco_pairs_loss": 1.1840412616729736,
      "eval_msmarco_pairs_runtime": 1.9754,
      "eval_msmarco_pairs_samples_per_second": 64.797,
      "eval_msmarco_pairs_steps_per_second": 1.012,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_nq_pairs_loss": 1.8690099716186523,
      "eval_nq_pairs_runtime": 3.3352,
      "eval_nq_pairs_samples_per_second": 38.379,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_trivia_pairs_loss": 1.388373851776123,
      "eval_trivia_pairs_runtime": 4.4947,
      "eval_trivia_pairs_samples_per_second": 28.478,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_gooaq_pairs_loss": 1.2368732690811157,
      "eval_gooaq_pairs_runtime": 1.4696,
      "eval_gooaq_pairs_samples_per_second": 87.099,
      "eval_gooaq_pairs_steps_per_second": 1.361,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_paws-pos_loss": 0.06138503551483154,
      "eval_paws-pos_runtime": 1.0358,
      "eval_paws-pos_samples_per_second": 123.574,
      "eval_paws-pos_steps_per_second": 1.931,
      "step": 460
    },
    {
      "epoch": 0.35686578743211794,
      "eval_global_dataset_loss": 0.8328232169151306,
      "eval_global_dataset_runtime": 19.402,
      "eval_global_dataset_samples_per_second": 21.441,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 460
    },
    {
      "epoch": 0.35764158262218776,
      "grad_norm": 19.271942138671875,
      "learning_rate": 1.8836662749706227e-05,
      "loss": 3.0981,
      "step": 461
    },
    {
      "epoch": 0.3584173778122576,
      "grad_norm": 16.643905639648438,
      "learning_rate": 1.887779083431257e-05,
      "loss": 1.5446,
      "step": 462
    },
    {
      "epoch": 0.3591931730023274,
      "grad_norm": 9.805319786071777,
      "learning_rate": 1.8918918918918918e-05,
      "loss": 0.7448,
      "step": 463
    },
    {
      "epoch": 0.3599689681923972,
      "grad_norm": 12.483269691467285,
      "learning_rate": 1.8960047003525263e-05,
      "loss": 0.8903,
      "step": 464
    },
    {
      "epoch": 0.360744763382467,
      "grad_norm": 10.567606925964355,
      "learning_rate": 1.9001175088131608e-05,
      "loss": 0.6648,
      "step": 465
    },
    {
      "epoch": 0.36152055857253684,
      "grad_norm": 12.790678024291992,
      "learning_rate": 1.9042303172737954e-05,
      "loss": 1.0112,
      "step": 466
    },
    {
      "epoch": 0.36229635376260666,
      "grad_norm": 9.75352954864502,
      "learning_rate": 1.90834312573443e-05,
      "loss": 0.7606,
      "step": 467
    },
    {
      "epoch": 0.3630721489526765,
      "grad_norm": 9.474419593811035,
      "learning_rate": 1.9124559341950644e-05,
      "loss": 0.5876,
      "step": 468
    },
    {
      "epoch": 0.3638479441427463,
      "grad_norm": 15.47821044921875,
      "learning_rate": 1.916568742655699e-05,
      "loss": 1.5486,
      "step": 469
    },
    {
      "epoch": 0.3646237393328161,
      "grad_norm": 9.594441413879395,
      "learning_rate": 1.9206815511163338e-05,
      "loss": 0.7844,
      "step": 470
    },
    {
      "epoch": 0.365399534522886,
      "grad_norm": 10.21621036529541,
      "learning_rate": 1.924794359576968e-05,
      "loss": 1.1707,
      "step": 471
    },
    {
      "epoch": 0.3661753297129558,
      "grad_norm": 10.79291820526123,
      "learning_rate": 1.9289071680376025e-05,
      "loss": 0.7245,
      "step": 472
    },
    {
      "epoch": 0.3669511249030256,
      "grad_norm": 11.436175346374512,
      "learning_rate": 1.9330199764982374e-05,
      "loss": 0.7898,
      "step": 473
    },
    {
      "epoch": 0.36772692009309543,
      "grad_norm": 10.453071594238281,
      "learning_rate": 1.9371327849588716e-05,
      "loss": 0.6014,
      "step": 474
    },
    {
      "epoch": 0.36850271528316525,
      "grad_norm": 11.758874893188477,
      "learning_rate": 1.9412455934195065e-05,
      "loss": 0.635,
      "step": 475
    },
    {
      "epoch": 0.36927851047323507,
      "grad_norm": 1.1648308038711548,
      "learning_rate": 1.9453584018801406e-05,
      "loss": 0.0885,
      "step": 476
    },
    {
      "epoch": 0.3700543056633049,
      "grad_norm": 7.729386806488037,
      "learning_rate": 1.9494712103407755e-05,
      "loss": 0.3688,
      "step": 477
    },
    {
      "epoch": 0.3708301008533747,
      "grad_norm": 14.267598152160645,
      "learning_rate": 1.95358401880141e-05,
      "loss": 1.6557,
      "step": 478
    },
    {
      "epoch": 0.3716058960434445,
      "grad_norm": 11.50204086303711,
      "learning_rate": 1.9576968272620442e-05,
      "loss": 0.7524,
      "step": 479
    },
    {
      "epoch": 0.37238169123351433,
      "grad_norm": 22.12100601196289,
      "learning_rate": 1.961809635722679e-05,
      "loss": 1.9615,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_Qnli-dev_cosine_accuracy": 0.669921875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8463388085365295,
      "eval_Qnli-dev_cosine_ap": 0.6828959513877161,
      "eval_Qnli-dev_cosine_f1": 0.6677067082683307,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7090969085693359,
      "eval_Qnli-dev_cosine_precision": 0.528395061728395,
      "eval_Qnli-dev_cosine_recall": 0.9067796610169492,
      "eval_Qnli-dev_dot_accuracy": 0.623046875,
      "eval_Qnli-dev_dot_accuracy_threshold": 450.0521545410156,
      "eval_Qnli-dev_dot_ap": 0.5920139709616099,
      "eval_Qnli-dev_dot_f1": 0.6536144578313253,
      "eval_Qnli-dev_dot_f1_threshold": 354.99444580078125,
      "eval_Qnli-dev_dot_precision": 0.5070093457943925,
      "eval_Qnli-dev_dot_recall": 0.9194915254237288,
      "eval_Qnli-dev_euclidean_accuracy": 0.662109375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.735542297363281,
      "eval_Qnli-dev_euclidean_ap": 0.6875483049796004,
      "eval_Qnli-dev_euclidean_f1": 0.6706766917293234,
      "eval_Qnli-dev_euclidean_f1_threshold": 18.239444732666016,
      "eval_Qnli-dev_euclidean_precision": 0.5198135198135199,
      "eval_Qnli-dev_euclidean_recall": 0.9449152542372882,
      "eval_Qnli-dev_manhattan_accuracy": 0.658203125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 228.6551513671875,
      "eval_Qnli-dev_manhattan_ap": 0.6860476994053801,
      "eval_Qnli-dev_manhattan_f1": 0.6717557251908397,
      "eval_Qnli-dev_manhattan_f1_threshold": 314.2021179199219,
      "eval_Qnli-dev_manhattan_precision": 0.5250596658711217,
      "eval_Qnli-dev_manhattan_recall": 0.9322033898305084,
      "eval_Qnli-dev_max_accuracy": 0.669921875,
      "eval_Qnli-dev_max_accuracy_threshold": 450.0521545410156,
      "eval_Qnli-dev_max_ap": 0.6875483049796004,
      "eval_Qnli-dev_max_f1": 0.6717557251908397,
      "eval_Qnli-dev_max_f1_threshold": 354.99444580078125,
      "eval_Qnli-dev_max_precision": 0.528395061728395,
      "eval_Qnli-dev_max_recall": 0.9449152542372882,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9102362394332886,
      "eval_allNLI-dev_cosine_ap": 0.5745210101303777,
      "eval_allNLI-dev_cosine_f1": 0.5879732739420935,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8427931070327759,
      "eval_allNLI-dev_cosine_precision": 0.4782608695652174,
      "eval_allNLI-dev_cosine_recall": 0.7630057803468208,
      "eval_allNLI-dev_dot_accuracy": 0.681640625,
      "eval_allNLI-dev_dot_accuracy_threshold": 548.634521484375,
      "eval_allNLI-dev_dot_ap": 0.46684131701078263,
      "eval_allNLI-dev_dot_f1": 0.5319148936170213,
      "eval_allNLI-dev_dot_f1_threshold": 427.22930908203125,
      "eval_allNLI-dev_dot_precision": 0.4208754208754209,
      "eval_allNLI-dev_dot_recall": 0.7225433526011561,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.285576820373535,
      "eval_allNLI-dev_euclidean_ap": 0.5741588797007808,
      "eval_allNLI-dev_euclidean_f1": 0.588235294117647,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.576900482177734,
      "eval_allNLI-dev_euclidean_precision": 0.49603174603174605,
      "eval_allNLI-dev_euclidean_recall": 0.7225433526011561,
      "eval_allNLI-dev_manhattan_accuracy": 0.70703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 180.05662536621094,
      "eval_allNLI-dev_manhattan_ap": 0.5735452262870777,
      "eval_allNLI-dev_manhattan_f1": 0.6046511627906977,
      "eval_allNLI-dev_manhattan_f1_threshold": 210.2524871826172,
      "eval_allNLI-dev_manhattan_precision": 0.5467289719626168,
      "eval_allNLI-dev_manhattan_recall": 0.6763005780346821,
      "eval_allNLI-dev_max_accuracy": 0.712890625,
      "eval_allNLI-dev_max_accuracy_threshold": 548.634521484375,
      "eval_allNLI-dev_max_ap": 0.5745210101303777,
      "eval_allNLI-dev_max_f1": 0.6046511627906977,
      "eval_allNLI-dev_max_f1_threshold": 427.22930908203125,
      "eval_allNLI-dev_max_precision": 0.5467289719626168,
      "eval_allNLI-dev_max_recall": 0.7630057803468208,
      "eval_sequential_score": 0.6875483049796004,
      "eval_sts-test_pearson_cosine": 0.7534891892135007,
      "eval_sts-test_pearson_dot": 0.6479194393449418,
      "eval_sts-test_pearson_euclidean": 0.7812492751513812,
      "eval_sts-test_pearson_manhattan": 0.7840744590454792,
      "eval_sts-test_pearson_max": 0.7840744590454792,
      "eval_sts-test_spearman_cosine": 0.7930095363399735,
      "eval_sts-test_spearman_dot": 0.6299849872121988,
      "eval_sts-test_spearman_euclidean": 0.7833179794167452,
      "eval_sts-test_spearman_manhattan": 0.7844261101513191,
      "eval_sts-test_spearman_max": 0.7930095363399735,
      "eval_vitaminc-pairs_loss": 4.219293594360352,
      "eval_vitaminc-pairs_runtime": 5.4525,
      "eval_vitaminc-pairs_samples_per_second": 23.475,
      "eval_vitaminc-pairs_steps_per_second": 0.367,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_negation-triplets_loss": 2.2595717906951904,
      "eval_negation-triplets_runtime": 1.076,
      "eval_negation-triplets_samples_per_second": 118.958,
      "eval_negation-triplets_steps_per_second": 1.859,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_scitail-pairs-pos_loss": 0.198380708694458,
      "eval_scitail-pairs-pos_runtime": 1.2515,
      "eval_scitail-pairs-pos_samples_per_second": 102.28,
      "eval_scitail-pairs-pos_steps_per_second": 1.598,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_scitail-pairs-qa_loss": 0.09023727476596832,
      "eval_scitail-pairs-qa_runtime": 0.7729,
      "eval_scitail-pairs-qa_samples_per_second": 165.613,
      "eval_scitail-pairs-qa_steps_per_second": 2.588,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_xsum-pairs_loss": 0.7412304878234863,
      "eval_xsum-pairs_runtime": 3.9236,
      "eval_xsum-pairs_samples_per_second": 32.623,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_sciq_pairs_loss": 0.11941801011562347,
      "eval_sciq_pairs_runtime": 5.8901,
      "eval_sciq_pairs_samples_per_second": 21.731,
      "eval_sciq_pairs_steps_per_second": 0.34,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_qasc_pairs_loss": 1.1291967630386353,
      "eval_qasc_pairs_runtime": 0.9112,
      "eval_qasc_pairs_samples_per_second": 140.478,
      "eval_qasc_pairs_steps_per_second": 2.195,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_openbookqa_pairs_loss": 2.1877193450927734,
      "eval_openbookqa_pairs_runtime": 0.8636,
      "eval_openbookqa_pairs_samples_per_second": 148.221,
      "eval_openbookqa_pairs_steps_per_second": 2.316,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_msmarco_pairs_loss": 1.241741418838501,
      "eval_msmarco_pairs_runtime": 1.9682,
      "eval_msmarco_pairs_samples_per_second": 65.033,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_nq_pairs_loss": 1.911564588546753,
      "eval_nq_pairs_runtime": 3.3306,
      "eval_nq_pairs_samples_per_second": 38.431,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_trivia_pairs_loss": 1.336583137512207,
      "eval_trivia_pairs_runtime": 4.481,
      "eval_trivia_pairs_samples_per_second": 28.565,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_gooaq_pairs_loss": 1.241878628730774,
      "eval_gooaq_pairs_runtime": 1.4874,
      "eval_gooaq_pairs_samples_per_second": 86.056,
      "eval_gooaq_pairs_steps_per_second": 1.345,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_paws-pos_loss": 0.05792829394340515,
      "eval_paws-pos_runtime": 1.0421,
      "eval_paws-pos_samples_per_second": 122.826,
      "eval_paws-pos_steps_per_second": 1.919,
      "step": 480
    },
    {
      "epoch": 0.37238169123351433,
      "eval_global_dataset_loss": 0.7699050903320312,
      "eval_global_dataset_runtime": 19.3968,
      "eval_global_dataset_samples_per_second": 21.447,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 480
    },
    {
      "epoch": 0.37315748642358415,
      "grad_norm": 12.873387336730957,
      "learning_rate": 1.9659224441833136e-05,
      "loss": 0.8126,
      "step": 481
    },
    {
      "epoch": 0.373933281613654,
      "grad_norm": 14.917364120483398,
      "learning_rate": 1.970035252643948e-05,
      "loss": 1.9393,
      "step": 482
    },
    {
      "epoch": 0.37470907680372384,
      "grad_norm": 13.657282829284668,
      "learning_rate": 1.9741480611045827e-05,
      "loss": 0.8192,
      "step": 483
    },
    {
      "epoch": 0.37548487199379366,
      "grad_norm": 15.467995643615723,
      "learning_rate": 1.9782608695652172e-05,
      "loss": 1.3567,
      "step": 484
    },
    {
      "epoch": 0.3762606671838635,
      "grad_norm": 10.490209579467773,
      "learning_rate": 1.9823736780258517e-05,
      "loss": 0.9228,
      "step": 485
    },
    {
      "epoch": 0.3770364623739333,
      "grad_norm": 10.652816772460938,
      "learning_rate": 1.9864864864864863e-05,
      "loss": 0.7702,
      "step": 486
    },
    {
      "epoch": 0.3778122575640031,
      "grad_norm": 11.838706016540527,
      "learning_rate": 1.990599294947121e-05,
      "loss": 1.4665,
      "step": 487
    },
    {
      "epoch": 0.3785880527540729,
      "grad_norm": 12.171431541442871,
      "learning_rate": 1.9947121034077553e-05,
      "loss": 0.9226,
      "step": 488
    },
    {
      "epoch": 0.37936384794414274,
      "grad_norm": 12.31843090057373,
      "learning_rate": 1.99882491186839e-05,
      "loss": 0.8567,
      "step": 489
    },
    {
      "epoch": 0.38013964313421256,
      "grad_norm": 14.622387886047363,
      "learning_rate": 2.0029377203290244e-05,
      "loss": 1.1429,
      "step": 490
    },
    {
      "epoch": 0.3809154383242824,
      "grad_norm": 6.184370994567871,
      "learning_rate": 2.007050528789659e-05,
      "loss": 0.2455,
      "step": 491
    },
    {
      "epoch": 0.3816912335143522,
      "grad_norm": 14.788031578063965,
      "learning_rate": 2.0111633372502938e-05,
      "loss": 1.5031,
      "step": 492
    },
    {
      "epoch": 0.382467028704422,
      "grad_norm": 19.639453887939453,
      "learning_rate": 2.015276145710928e-05,
      "loss": 1.9204,
      "step": 493
    },
    {
      "epoch": 0.3832428238944919,
      "grad_norm": 18.208860397338867,
      "learning_rate": 2.019388954171563e-05,
      "loss": 1.829,
      "step": 494
    },
    {
      "epoch": 0.3840186190845617,
      "grad_norm": 20.859495162963867,
      "learning_rate": 2.0235017626321974e-05,
      "loss": 2.4017,
      "step": 495
    },
    {
      "epoch": 0.3847944142746315,
      "grad_norm": 11.328153610229492,
      "learning_rate": 2.0276145710928316e-05,
      "loss": 1.5618,
      "step": 496
    },
    {
      "epoch": 0.38557020946470133,
      "grad_norm": 14.648991584777832,
      "learning_rate": 2.0317273795534664e-05,
      "loss": 1.286,
      "step": 497
    },
    {
      "epoch": 0.38634600465477115,
      "grad_norm": 10.970126152038574,
      "learning_rate": 2.035840188014101e-05,
      "loss": 0.9989,
      "step": 498
    },
    {
      "epoch": 0.38712179984484096,
      "grad_norm": 11.271415710449219,
      "learning_rate": 2.0399529964747355e-05,
      "loss": 0.6532,
      "step": 499
    },
    {
      "epoch": 0.3878975950349108,
      "grad_norm": 15.105283737182617,
      "learning_rate": 2.04406580493537e-05,
      "loss": 1.4656,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_Qnli-dev_cosine_accuracy": 0.669921875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8747369050979614,
      "eval_Qnli-dev_cosine_ap": 0.6865438506499877,
      "eval_Qnli-dev_cosine_f1": 0.6708860759493672,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7570576667785645,
      "eval_Qnli-dev_cosine_precision": 0.5353535353535354,
      "eval_Qnli-dev_cosine_recall": 0.8983050847457628,
      "eval_Qnli-dev_dot_accuracy": 0.623046875,
      "eval_Qnli-dev_dot_accuracy_threshold": 463.1806335449219,
      "eval_Qnli-dev_dot_ap": 0.5795813697545705,
      "eval_Qnli-dev_dot_f1": 0.6461538461538463,
      "eval_Qnli-dev_dot_f1_threshold": 408.7640686035156,
      "eval_Qnli-dev_dot_precision": 0.5072463768115942,
      "eval_Qnli-dev_dot_recall": 0.8898305084745762,
      "eval_Qnli-dev_euclidean_accuracy": 0.662109375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.793764114379883,
      "eval_Qnli-dev_euclidean_ap": 0.6906311828355566,
      "eval_Qnli-dev_euclidean_f1": 0.6688741721854304,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.974777221679688,
      "eval_Qnli-dev_euclidean_precision": 0.5489130434782609,
      "eval_Qnli-dev_euclidean_recall": 0.8559322033898306,
      "eval_Qnli-dev_manhattan_accuracy": 0.66015625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 204.43795776367188,
      "eval_Qnli-dev_manhattan_ap": 0.6854604224405945,
      "eval_Qnli-dev_manhattan_f1": 0.6721854304635762,
      "eval_Qnli-dev_manhattan_f1_threshold": 279.64154052734375,
      "eval_Qnli-dev_manhattan_precision": 0.5516304347826086,
      "eval_Qnli-dev_manhattan_recall": 0.8601694915254238,
      "eval_Qnli-dev_max_accuracy": 0.669921875,
      "eval_Qnli-dev_max_accuracy_threshold": 463.1806335449219,
      "eval_Qnli-dev_max_ap": 0.6906311828355566,
      "eval_Qnli-dev_max_f1": 0.6721854304635762,
      "eval_Qnli-dev_max_f1_threshold": 408.7640686035156,
      "eval_Qnli-dev_max_precision": 0.5516304347826086,
      "eval_Qnli-dev_max_recall": 0.8983050847457628,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8857035636901855,
      "eval_allNLI-dev_cosine_ap": 0.571285194257141,
      "eval_allNLI-dev_cosine_f1": 0.5807860262008734,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8415230512619019,
      "eval_allNLI-dev_cosine_precision": 0.4666666666666667,
      "eval_allNLI-dev_cosine_recall": 0.7687861271676301,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 556.57373046875,
      "eval_allNLI-dev_dot_ap": 0.45240099555065105,
      "eval_allNLI-dev_dot_f1": 0.5364891518737672,
      "eval_allNLI-dev_dot_f1_threshold": 430.94512939453125,
      "eval_allNLI-dev_dot_precision": 0.40718562874251496,
      "eval_allNLI-dev_dot_recall": 0.7861271676300579,
      "eval_allNLI-dev_euclidean_accuracy": 0.708984375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.428966522216797,
      "eval_allNLI-dev_euclidean_ap": 0.5738231649747512,
      "eval_allNLI-dev_euclidean_f1": 0.5852631578947369,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.404863357543945,
      "eval_allNLI-dev_euclidean_precision": 0.4602649006622517,
      "eval_allNLI-dev_euclidean_recall": 0.8034682080924855,
      "eval_allNLI-dev_manhattan_accuracy": 0.720703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 188.47079467773438,
      "eval_allNLI-dev_manhattan_ap": 0.5751304692008022,
      "eval_allNLI-dev_manhattan_f1": 0.5966587112171838,
      "eval_allNLI-dev_manhattan_f1_threshold": 219.94509887695312,
      "eval_allNLI-dev_manhattan_precision": 0.508130081300813,
      "eval_allNLI-dev_manhattan_recall": 0.7225433526011561,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 556.57373046875,
      "eval_allNLI-dev_max_ap": 0.5751304692008022,
      "eval_allNLI-dev_max_f1": 0.5966587112171838,
      "eval_allNLI-dev_max_f1_threshold": 430.94512939453125,
      "eval_allNLI-dev_max_precision": 0.508130081300813,
      "eval_allNLI-dev_max_recall": 0.8034682080924855,
      "eval_sequential_score": 0.6906311828355566,
      "eval_sts-test_pearson_cosine": 0.771901760871578,
      "eval_sts-test_pearson_dot": 0.671396454662895,
      "eval_sts-test_pearson_euclidean": 0.7926178039136434,
      "eval_sts-test_pearson_manhattan": 0.7942176115421151,
      "eval_sts-test_pearson_max": 0.7942176115421151,
      "eval_sts-test_spearman_cosine": 0.8078814992818705,
      "eval_sts-test_spearman_dot": 0.6573084963723772,
      "eval_sts-test_spearman_euclidean": 0.794281904203854,
      "eval_sts-test_spearman_manhattan": 0.7947769426573655,
      "eval_sts-test_spearman_max": 0.8078814992818705,
      "eval_vitaminc-pairs_loss": 4.061150550842285,
      "eval_vitaminc-pairs_runtime": 5.4547,
      "eval_vitaminc-pairs_samples_per_second": 23.466,
      "eval_vitaminc-pairs_steps_per_second": 0.367,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_negation-triplets_loss": 2.2792365550994873,
      "eval_negation-triplets_runtime": 1.0799,
      "eval_negation-triplets_samples_per_second": 118.531,
      "eval_negation-triplets_steps_per_second": 1.852,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_scitail-pairs-pos_loss": 0.2175576537847519,
      "eval_scitail-pairs-pos_runtime": 1.2619,
      "eval_scitail-pairs-pos_samples_per_second": 101.434,
      "eval_scitail-pairs-pos_steps_per_second": 1.585,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_scitail-pairs-qa_loss": 0.07303012162446976,
      "eval_scitail-pairs-qa_runtime": 0.7684,
      "eval_scitail-pairs-qa_samples_per_second": 166.591,
      "eval_scitail-pairs-qa_steps_per_second": 2.603,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_xsum-pairs_loss": 0.6853438019752502,
      "eval_xsum-pairs_runtime": 3.9237,
      "eval_xsum-pairs_samples_per_second": 32.622,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_sciq_pairs_loss": 0.10957910120487213,
      "eval_sciq_pairs_runtime": 5.9387,
      "eval_sciq_pairs_samples_per_second": 21.553,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_qasc_pairs_loss": 1.0403637886047363,
      "eval_qasc_pairs_runtime": 0.9266,
      "eval_qasc_pairs_samples_per_second": 138.145,
      "eval_qasc_pairs_steps_per_second": 2.159,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_openbookqa_pairs_loss": 2.1081655025482178,
      "eval_openbookqa_pairs_runtime": 0.8637,
      "eval_openbookqa_pairs_samples_per_second": 148.197,
      "eval_openbookqa_pairs_steps_per_second": 2.316,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_msmarco_pairs_loss": 1.0579735040664673,
      "eval_msmarco_pairs_runtime": 1.9798,
      "eval_msmarco_pairs_samples_per_second": 64.653,
      "eval_msmarco_pairs_steps_per_second": 1.01,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_nq_pairs_loss": 1.645302414894104,
      "eval_nq_pairs_runtime": 3.3362,
      "eval_nq_pairs_samples_per_second": 38.368,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_trivia_pairs_loss": 1.2547576427459717,
      "eval_trivia_pairs_runtime": 4.4885,
      "eval_trivia_pairs_samples_per_second": 28.517,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_gooaq_pairs_loss": 1.167790412902832,
      "eval_gooaq_pairs_runtime": 1.4668,
      "eval_gooaq_pairs_samples_per_second": 87.264,
      "eval_gooaq_pairs_steps_per_second": 1.364,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_paws-pos_loss": 0.059369876980781555,
      "eval_paws-pos_runtime": 1.0333,
      "eval_paws-pos_samples_per_second": 123.881,
      "eval_paws-pos_steps_per_second": 1.936,
      "step": 500
    },
    {
      "epoch": 0.3878975950349108,
      "eval_global_dataset_loss": 0.6943269968032837,
      "eval_global_dataset_runtime": 19.4141,
      "eval_global_dataset_samples_per_second": 21.428,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 500
    },
    {
      "epoch": 0.3886733902249806,
      "grad_norm": 12.631108283996582,
      "learning_rate": 2.0481786133960042e-05,
      "loss": 1.6093,
      "step": 501
    },
    {
      "epoch": 0.3894491854150504,
      "grad_norm": 14.593748092651367,
      "learning_rate": 2.052291421856639e-05,
      "loss": 1.6896,
      "step": 502
    },
    {
      "epoch": 0.39022498060512023,
      "grad_norm": 13.730030059814453,
      "learning_rate": 2.0564042303172736e-05,
      "loss": 1.3149,
      "step": 503
    },
    {
      "epoch": 0.39100077579519005,
      "grad_norm": 11.460733413696289,
      "learning_rate": 2.060517038777908e-05,
      "loss": 1.0461,
      "step": 504
    },
    {
      "epoch": 0.39177657098525986,
      "grad_norm": 11.096057891845703,
      "learning_rate": 2.0646298472385427e-05,
      "loss": 1.2417,
      "step": 505
    },
    {
      "epoch": 0.39255236617532974,
      "grad_norm": 10.991378784179688,
      "learning_rate": 2.0687426556991772e-05,
      "loss": 0.7121,
      "step": 506
    },
    {
      "epoch": 0.39332816136539955,
      "grad_norm": 9.571194648742676,
      "learning_rate": 2.0728554641598117e-05,
      "loss": 0.8205,
      "step": 507
    },
    {
      "epoch": 0.39410395655546937,
      "grad_norm": 6.761598587036133,
      "learning_rate": 2.0769682726204463e-05,
      "loss": 0.2886,
      "step": 508
    },
    {
      "epoch": 0.3948797517455392,
      "grad_norm": 10.539600372314453,
      "learning_rate": 2.081081081081081e-05,
      "loss": 0.6667,
      "step": 509
    },
    {
      "epoch": 0.395655546935609,
      "grad_norm": 18.16293716430664,
      "learning_rate": 2.0851938895417153e-05,
      "loss": 1.7981,
      "step": 510
    },
    {
      "epoch": 0.3964313421256788,
      "grad_norm": 8.688652038574219,
      "learning_rate": 2.0893066980023502e-05,
      "loss": 0.4364,
      "step": 511
    },
    {
      "epoch": 0.39720713731574864,
      "grad_norm": 11.366159439086914,
      "learning_rate": 2.0934195064629847e-05,
      "loss": 0.7245,
      "step": 512
    },
    {
      "epoch": 0.39798293250581845,
      "grad_norm": 9.486770629882812,
      "learning_rate": 2.097532314923619e-05,
      "loss": 0.6328,
      "step": 513
    },
    {
      "epoch": 0.39875872769588827,
      "grad_norm": 14.476900100708008,
      "learning_rate": 2.1016451233842538e-05,
      "loss": 1.3796,
      "step": 514
    },
    {
      "epoch": 0.3995345228859581,
      "grad_norm": 14.469146728515625,
      "learning_rate": 2.105757931844888e-05,
      "loss": 1.2157,
      "step": 515
    },
    {
      "epoch": 0.4003103180760279,
      "grad_norm": 17.520402908325195,
      "learning_rate": 2.1098707403055228e-05,
      "loss": 1.4128,
      "step": 516
    },
    {
      "epoch": 0.4010861132660978,
      "grad_norm": 14.814453125,
      "learning_rate": 2.1139835487661573e-05,
      "loss": 2.0686,
      "step": 517
    },
    {
      "epoch": 0.4018619084561676,
      "grad_norm": 9.749579429626465,
      "learning_rate": 2.1180963572267915e-05,
      "loss": 1.115,
      "step": 518
    },
    {
      "epoch": 0.4026377036462374,
      "grad_norm": 11.475977897644043,
      "learning_rate": 2.1222091656874264e-05,
      "loss": 0.8495,
      "step": 519
    },
    {
      "epoch": 0.4034134988363072,
      "grad_norm": 10.206400871276855,
      "learning_rate": 2.126321974148061e-05,
      "loss": 0.5301,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_Qnli-dev_cosine_accuracy": 0.6640625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8630666136741638,
      "eval_Qnli-dev_cosine_ap": 0.6864801399197513,
      "eval_Qnli-dev_cosine_f1": 0.6676923076923076,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7470320463180542,
      "eval_Qnli-dev_cosine_precision": 0.5241545893719807,
      "eval_Qnli-dev_cosine_recall": 0.9194915254237288,
      "eval_Qnli-dev_dot_accuracy": 0.626953125,
      "eval_Qnli-dev_dot_accuracy_threshold": 509.13177490234375,
      "eval_Qnli-dev_dot_ap": 0.5961767874874291,
      "eval_Qnli-dev_dot_f1": 0.6540145985401459,
      "eval_Qnli-dev_dot_f1_threshold": 382.5948486328125,
      "eval_Qnli-dev_dot_precision": 0.49888641425389757,
      "eval_Qnli-dev_dot_recall": 0.9491525423728814,
      "eval_Qnli-dev_euclidean_accuracy": 0.6640625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.71471118927002,
      "eval_Qnli-dev_euclidean_ap": 0.6869527631961445,
      "eval_Qnli-dev_euclidean_f1": 0.6711185308848081,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.946113586425781,
      "eval_Qnli-dev_euclidean_precision": 0.5537190082644629,
      "eval_Qnli-dev_euclidean_recall": 0.8516949152542372,
      "eval_Qnli-dev_manhattan_accuracy": 0.671875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 208.53021240234375,
      "eval_Qnli-dev_manhattan_ap": 0.6899294790824355,
      "eval_Qnli-dev_manhattan_f1": 0.6754098360655738,
      "eval_Qnli-dev_manhattan_f1_threshold": 283.5461730957031,
      "eval_Qnli-dev_manhattan_precision": 0.5508021390374331,
      "eval_Qnli-dev_manhattan_recall": 0.8728813559322034,
      "eval_Qnli-dev_max_accuracy": 0.671875,
      "eval_Qnli-dev_max_accuracy_threshold": 509.13177490234375,
      "eval_Qnli-dev_max_ap": 0.6899294790824355,
      "eval_Qnli-dev_max_f1": 0.6754098360655738,
      "eval_Qnli-dev_max_f1_threshold": 382.5948486328125,
      "eval_Qnli-dev_max_precision": 0.5537190082644629,
      "eval_Qnli-dev_max_recall": 0.9491525423728814,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9217908382415771,
      "eval_allNLI-dev_cosine_ap": 0.5865821070643723,
      "eval_allNLI-dev_cosine_f1": 0.5882352941176471,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8343489170074463,
      "eval_allNLI-dev_cosine_precision": 0.483271375464684,
      "eval_allNLI-dev_cosine_recall": 0.7514450867052023,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 541.32568359375,
      "eval_allNLI-dev_dot_ap": 0.47010002301609466,
      "eval_allNLI-dev_dot_f1": 0.5317725752508361,
      "eval_allNLI-dev_dot_f1_threshold": 379.1038818359375,
      "eval_allNLI-dev_dot_precision": 0.37411764705882355,
      "eval_allNLI-dev_dot_recall": 0.9190751445086706,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.514617919921875,
      "eval_allNLI-dev_euclidean_ap": 0.5824948849494698,
      "eval_allNLI-dev_euclidean_f1": 0.5829787234042553,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.028602600097656,
      "eval_allNLI-dev_euclidean_precision": 0.4612794612794613,
      "eval_allNLI-dev_euclidean_recall": 0.791907514450867,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 186.78890991210938,
      "eval_allNLI-dev_manhattan_ap": 0.5825071015866208,
      "eval_allNLI-dev_manhattan_f1": 0.5952380952380952,
      "eval_allNLI-dev_manhattan_f1_threshold": 229.18360900878906,
      "eval_allNLI-dev_manhattan_precision": 0.5060728744939271,
      "eval_allNLI-dev_manhattan_recall": 0.7225433526011561,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 541.32568359375,
      "eval_allNLI-dev_max_ap": 0.5865821070643723,
      "eval_allNLI-dev_max_f1": 0.5952380952380952,
      "eval_allNLI-dev_max_f1_threshold": 379.1038818359375,
      "eval_allNLI-dev_max_precision": 0.5060728744939271,
      "eval_allNLI-dev_max_recall": 0.9190751445086706,
      "eval_sequential_score": 0.6899294790824355,
      "eval_sts-test_pearson_cosine": 0.7943926827825525,
      "eval_sts-test_pearson_dot": 0.6888392553853662,
      "eval_sts-test_pearson_euclidean": 0.8146723367382795,
      "eval_sts-test_pearson_manhattan": 0.8140557940999833,
      "eval_sts-test_pearson_max": 0.8146723367382795,
      "eval_sts-test_spearman_cosine": 0.8229409700089974,
      "eval_sts-test_spearman_dot": 0.6768808633032584,
      "eval_sts-test_spearman_euclidean": 0.8112659029271178,
      "eval_sts-test_spearman_manhattan": 0.8109135762461833,
      "eval_sts-test_spearman_max": 0.8229409700089974,
      "eval_vitaminc-pairs_loss": 4.049212455749512,
      "eval_vitaminc-pairs_runtime": 5.5044,
      "eval_vitaminc-pairs_samples_per_second": 23.254,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_negation-triplets_loss": 2.2466907501220703,
      "eval_negation-triplets_runtime": 1.1021,
      "eval_negation-triplets_samples_per_second": 116.146,
      "eval_negation-triplets_steps_per_second": 1.815,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_scitail-pairs-pos_loss": 0.2528344690799713,
      "eval_scitail-pairs-pos_runtime": 1.2466,
      "eval_scitail-pairs-pos_samples_per_second": 102.677,
      "eval_scitail-pairs-pos_steps_per_second": 1.604,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_scitail-pairs-qa_loss": 0.08246471732854843,
      "eval_scitail-pairs-qa_runtime": 0.8541,
      "eval_scitail-pairs-qa_samples_per_second": 149.862,
      "eval_scitail-pairs-qa_steps_per_second": 2.342,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_xsum-pairs_loss": 0.6523213386535645,
      "eval_xsum-pairs_runtime": 3.9686,
      "eval_xsum-pairs_samples_per_second": 32.253,
      "eval_xsum-pairs_steps_per_second": 0.504,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_sciq_pairs_loss": 0.10934119671583176,
      "eval_sciq_pairs_runtime": 6.0262,
      "eval_sciq_pairs_samples_per_second": 21.241,
      "eval_sciq_pairs_steps_per_second": 0.332,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_qasc_pairs_loss": 1.0355889797210693,
      "eval_qasc_pairs_runtime": 0.9133,
      "eval_qasc_pairs_samples_per_second": 140.148,
      "eval_qasc_pairs_steps_per_second": 2.19,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_openbookqa_pairs_loss": 2.0900936126708984,
      "eval_openbookqa_pairs_runtime": 0.8706,
      "eval_openbookqa_pairs_samples_per_second": 147.029,
      "eval_openbookqa_pairs_steps_per_second": 2.297,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_msmarco_pairs_loss": 0.9958593249320984,
      "eval_msmarco_pairs_runtime": 1.9878,
      "eval_msmarco_pairs_samples_per_second": 64.394,
      "eval_msmarco_pairs_steps_per_second": 1.006,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_nq_pairs_loss": 1.6257421970367432,
      "eval_nq_pairs_runtime": 3.3565,
      "eval_nq_pairs_samples_per_second": 38.135,
      "eval_nq_pairs_steps_per_second": 0.596,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_trivia_pairs_loss": 1.2904225587844849,
      "eval_trivia_pairs_runtime": 4.5418,
      "eval_trivia_pairs_samples_per_second": 28.183,
      "eval_trivia_pairs_steps_per_second": 0.44,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_gooaq_pairs_loss": 1.158769130706787,
      "eval_gooaq_pairs_runtime": 1.5102,
      "eval_gooaq_pairs_samples_per_second": 84.756,
      "eval_gooaq_pairs_steps_per_second": 1.324,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_paws-pos_loss": 0.056799858808517456,
      "eval_paws-pos_runtime": 1.0837,
      "eval_paws-pos_samples_per_second": 118.116,
      "eval_paws-pos_steps_per_second": 1.846,
      "step": 520
    },
    {
      "epoch": 0.4034134988363072,
      "eval_global_dataset_loss": 0.703998327255249,
      "eval_global_dataset_runtime": 19.4918,
      "eval_global_dataset_samples_per_second": 21.342,
      "eval_global_dataset_steps_per_second": 0.359,
      "step": 520
    },
    {
      "epoch": 0.40418929402637704,
      "grad_norm": 17.330259323120117,
      "learning_rate": 2.1304347826086955e-05,
      "loss": 1.534,
      "step": 521
    },
    {
      "epoch": 0.40496508921644686,
      "grad_norm": 17.98264503479004,
      "learning_rate": 2.13454759106933e-05,
      "loss": 2.8681,
      "step": 522
    },
    {
      "epoch": 0.4057408844065167,
      "grad_norm": 12.535171508789062,
      "learning_rate": 2.1386603995299645e-05,
      "loss": 1.4974,
      "step": 523
    },
    {
      "epoch": 0.4065166795965865,
      "grad_norm": 15.35007381439209,
      "learning_rate": 2.142773207990599e-05,
      "loss": 1.3792,
      "step": 524
    },
    {
      "epoch": 0.4072924747866563,
      "grad_norm": 10.744861602783203,
      "learning_rate": 2.1468860164512336e-05,
      "loss": 0.8891,
      "step": 525
    },
    {
      "epoch": 0.40806826997672613,
      "grad_norm": 9.942862510681152,
      "learning_rate": 2.1509988249118684e-05,
      "loss": 0.6328,
      "step": 526
    },
    {
      "epoch": 0.40884406516679594,
      "grad_norm": 15.72616958618164,
      "learning_rate": 2.1551116333725026e-05,
      "loss": 1.8621,
      "step": 527
    },
    {
      "epoch": 0.40961986035686576,
      "grad_norm": 7.739931106567383,
      "learning_rate": 2.1592244418331375e-05,
      "loss": 0.4133,
      "step": 528
    },
    {
      "epoch": 0.41039565554693563,
      "grad_norm": 9.970248222351074,
      "learning_rate": 2.1633372502937717e-05,
      "loss": 0.7418,
      "step": 529
    },
    {
      "epoch": 0.41117145073700545,
      "grad_norm": 9.07480525970459,
      "learning_rate": 2.1674500587544062e-05,
      "loss": 0.5625,
      "step": 530
    },
    {
      "epoch": 0.41194724592707527,
      "grad_norm": 8.35373306274414,
      "learning_rate": 2.171562867215041e-05,
      "loss": 0.5545,
      "step": 531
    },
    {
      "epoch": 0.4127230411171451,
      "grad_norm": 10.86092472076416,
      "learning_rate": 2.1756756756756753e-05,
      "loss": 1.1808,
      "step": 532
    },
    {
      "epoch": 0.4134988363072149,
      "grad_norm": 14.283552169799805,
      "learning_rate": 2.17978848413631e-05,
      "loss": 1.8035,
      "step": 533
    },
    {
      "epoch": 0.4142746314972847,
      "grad_norm": 4.8627424240112305,
      "learning_rate": 2.1839012925969447e-05,
      "loss": 0.1492,
      "step": 534
    },
    {
      "epoch": 0.41505042668735453,
      "grad_norm": 10.93820858001709,
      "learning_rate": 2.188014101057579e-05,
      "loss": 1.2314,
      "step": 535
    },
    {
      "epoch": 0.41582622187742435,
      "grad_norm": 14.4031982421875,
      "learning_rate": 2.1921269095182137e-05,
      "loss": 1.5375,
      "step": 536
    },
    {
      "epoch": 0.41660201706749417,
      "grad_norm": 23.42047119140625,
      "learning_rate": 2.1962397179788483e-05,
      "loss": 2.9917,
      "step": 537
    },
    {
      "epoch": 0.417377812257564,
      "grad_norm": 11.167613983154297,
      "learning_rate": 2.2003525264394828e-05,
      "loss": 0.6153,
      "step": 538
    },
    {
      "epoch": 0.4181536074476338,
      "grad_norm": 22.974531173706055,
      "learning_rate": 2.2044653349001173e-05,
      "loss": 2.3485,
      "step": 539
    },
    {
      "epoch": 0.4189294026377037,
      "grad_norm": 13.186490058898926,
      "learning_rate": 2.2085781433607515e-05,
      "loss": 0.7165,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_Qnli-dev_cosine_accuracy": 0.677734375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8607775568962097,
      "eval_Qnli-dev_cosine_ap": 0.6876732451586249,
      "eval_Qnli-dev_cosine_f1": 0.674496644295302,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7569329738616943,
      "eval_Qnli-dev_cosine_precision": 0.5583333333333333,
      "eval_Qnli-dev_cosine_recall": 0.8516949152542372,
      "eval_Qnli-dev_dot_accuracy": 0.6328125,
      "eval_Qnli-dev_dot_accuracy_threshold": 435.5442810058594,
      "eval_Qnli-dev_dot_ap": 0.6207899421535183,
      "eval_Qnli-dev_dot_f1": 0.6634460547504026,
      "eval_Qnli-dev_dot_f1_threshold": 364.42340087890625,
      "eval_Qnli-dev_dot_precision": 0.535064935064935,
      "eval_Qnli-dev_dot_recall": 0.8728813559322034,
      "eval_Qnli-dev_euclidean_accuracy": 0.66015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.227877616882324,
      "eval_Qnli-dev_euclidean_ap": 0.6882683194952817,
      "eval_Qnli-dev_euclidean_f1": 0.6781411359724612,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.63144302368164,
      "eval_Qnli-dev_euclidean_precision": 0.5710144927536231,
      "eval_Qnli-dev_euclidean_recall": 0.8347457627118644,
      "eval_Qnli-dev_manhattan_accuracy": 0.66796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 207.87457275390625,
      "eval_Qnli-dev_manhattan_ap": 0.686343836883915,
      "eval_Qnli-dev_manhattan_f1": 0.6767169179229481,
      "eval_Qnli-dev_manhattan_f1_threshold": 283.05743408203125,
      "eval_Qnli-dev_manhattan_precision": 0.5595567867036011,
      "eval_Qnli-dev_manhattan_recall": 0.8559322033898306,
      "eval_Qnli-dev_max_accuracy": 0.677734375,
      "eval_Qnli-dev_max_accuracy_threshold": 435.5442810058594,
      "eval_Qnli-dev_max_ap": 0.6882683194952817,
      "eval_Qnli-dev_max_f1": 0.6781411359724612,
      "eval_Qnli-dev_max_f1_threshold": 364.42340087890625,
      "eval_Qnli-dev_max_precision": 0.5710144927536231,
      "eval_Qnli-dev_max_recall": 0.8728813559322034,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9104803800582886,
      "eval_allNLI-dev_cosine_ap": 0.5805694368067533,
      "eval_allNLI-dev_cosine_f1": 0.5803921568627451,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7738338708877563,
      "eval_allNLI-dev_cosine_precision": 0.4391691394658754,
      "eval_allNLI-dev_cosine_recall": 0.8554913294797688,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 460.63214111328125,
      "eval_allNLI-dev_dot_ap": 0.4777128944678729,
      "eval_allNLI-dev_dot_f1": 0.5577981651376146,
      "eval_allNLI-dev_dot_f1_threshold": 351.3927917480469,
      "eval_allNLI-dev_dot_precision": 0.40860215053763443,
      "eval_allNLI-dev_dot_recall": 0.8786127167630058,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 11.379776954650879,
      "eval_allNLI-dev_euclidean_ap": 0.5815048328459478,
      "eval_allNLI-dev_euclidean_f1": 0.5860655737704918,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.440160751342773,
      "eval_allNLI-dev_euclidean_precision": 0.45396825396825397,
      "eval_allNLI-dev_euclidean_recall": 0.8265895953757225,
      "eval_allNLI-dev_manhattan_accuracy": 0.720703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 189.49766540527344,
      "eval_allNLI-dev_manhattan_ap": 0.5851021469692314,
      "eval_allNLI-dev_manhattan_f1": 0.5879518072289156,
      "eval_allNLI-dev_manhattan_f1_threshold": 235.60931396484375,
      "eval_allNLI-dev_manhattan_precision": 0.5041322314049587,
      "eval_allNLI-dev_manhattan_recall": 0.7052023121387283,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 460.63214111328125,
      "eval_allNLI-dev_max_ap": 0.5851021469692314,
      "eval_allNLI-dev_max_f1": 0.5879518072289156,
      "eval_allNLI-dev_max_f1_threshold": 351.3927917480469,
      "eval_allNLI-dev_max_precision": 0.5041322314049587,
      "eval_allNLI-dev_max_recall": 0.8786127167630058,
      "eval_sequential_score": 0.6882683194952817,
      "eval_sts-test_pearson_cosine": 0.7891107355413437,
      "eval_sts-test_pearson_dot": 0.7386287226644515,
      "eval_sts-test_pearson_euclidean": 0.8139455031957386,
      "eval_sts-test_pearson_manhattan": 0.8126098848427838,
      "eval_sts-test_pearson_max": 0.8139455031957386,
      "eval_sts-test_spearman_cosine": 0.8216120101639881,
      "eval_sts-test_spearman_dot": 0.7303319041629301,
      "eval_sts-test_spearman_euclidean": 0.8135028394790285,
      "eval_sts-test_spearman_manhattan": 0.8127091758582519,
      "eval_sts-test_spearman_max": 0.8216120101639881,
      "eval_vitaminc-pairs_loss": 4.483358383178711,
      "eval_vitaminc-pairs_runtime": 5.5001,
      "eval_vitaminc-pairs_samples_per_second": 23.272,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_negation-triplets_loss": 2.18699312210083,
      "eval_negation-triplets_runtime": 1.0783,
      "eval_negation-triplets_samples_per_second": 118.7,
      "eval_negation-triplets_steps_per_second": 1.855,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_scitail-pairs-pos_loss": 0.3008614778518677,
      "eval_scitail-pairs-pos_runtime": 1.2724,
      "eval_scitail-pairs-pos_samples_per_second": 100.597,
      "eval_scitail-pairs-pos_steps_per_second": 1.572,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_scitail-pairs-qa_loss": 0.07090522348880768,
      "eval_scitail-pairs-qa_runtime": 0.7905,
      "eval_scitail-pairs-qa_samples_per_second": 161.927,
      "eval_scitail-pairs-qa_steps_per_second": 2.53,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_xsum-pairs_loss": 0.6539483666419983,
      "eval_xsum-pairs_runtime": 3.9209,
      "eval_xsum-pairs_samples_per_second": 32.646,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_sciq_pairs_loss": 0.10181967914104462,
      "eval_sciq_pairs_runtime": 5.9007,
      "eval_sciq_pairs_samples_per_second": 21.692,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_qasc_pairs_loss": 1.0931895971298218,
      "eval_qasc_pairs_runtime": 0.9228,
      "eval_qasc_pairs_samples_per_second": 138.714,
      "eval_qasc_pairs_steps_per_second": 2.167,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_openbookqa_pairs_loss": 2.048208713531494,
      "eval_openbookqa_pairs_runtime": 0.8647,
      "eval_openbookqa_pairs_samples_per_second": 148.025,
      "eval_openbookqa_pairs_steps_per_second": 2.313,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_msmarco_pairs_loss": 0.9137493968009949,
      "eval_msmarco_pairs_runtime": 1.9669,
      "eval_msmarco_pairs_samples_per_second": 65.078,
      "eval_msmarco_pairs_steps_per_second": 1.017,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_nq_pairs_loss": 1.7704282999038696,
      "eval_nq_pairs_runtime": 3.3334,
      "eval_nq_pairs_samples_per_second": 38.399,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_trivia_pairs_loss": 1.327826976776123,
      "eval_trivia_pairs_runtime": 4.475,
      "eval_trivia_pairs_samples_per_second": 28.603,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_gooaq_pairs_loss": 1.157819390296936,
      "eval_gooaq_pairs_runtime": 1.4597,
      "eval_gooaq_pairs_samples_per_second": 87.692,
      "eval_gooaq_pairs_steps_per_second": 1.37,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_paws-pos_loss": 0.051995135843753815,
      "eval_paws-pos_runtime": 1.0319,
      "eval_paws-pos_samples_per_second": 124.049,
      "eval_paws-pos_steps_per_second": 1.938,
      "step": 540
    },
    {
      "epoch": 0.4189294026377037,
      "eval_global_dataset_loss": 0.716935932636261,
      "eval_global_dataset_runtime": 19.4318,
      "eval_global_dataset_samples_per_second": 21.408,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 540
    },
    {
      "epoch": 0.4197051978277735,
      "grad_norm": 12.334939956665039,
      "learning_rate": 2.2126909518213864e-05,
      "loss": 0.5742,
      "step": 541
    },
    {
      "epoch": 0.4204809930178433,
      "grad_norm": 1.654783010482788,
      "learning_rate": 2.216803760282021e-05,
      "loss": 0.0717,
      "step": 542
    },
    {
      "epoch": 0.4212567882079131,
      "grad_norm": 7.320519924163818,
      "learning_rate": 2.2209165687426558e-05,
      "loss": 0.2671,
      "step": 543
    },
    {
      "epoch": 0.42203258339798294,
      "grad_norm": 10.110030174255371,
      "learning_rate": 2.22502937720329e-05,
      "loss": 0.4795,
      "step": 544
    },
    {
      "epoch": 0.42280837858805276,
      "grad_norm": 17.791595458984375,
      "learning_rate": 2.229142185663925e-05,
      "loss": 1.2338,
      "step": 545
    },
    {
      "epoch": 0.4235841737781226,
      "grad_norm": 10.264248847961426,
      "learning_rate": 2.233254994124559e-05,
      "loss": 0.6141,
      "step": 546
    },
    {
      "epoch": 0.4243599689681924,
      "grad_norm": 11.364494323730469,
      "learning_rate": 2.2373678025851936e-05,
      "loss": 0.6861,
      "step": 547
    },
    {
      "epoch": 0.4251357641582622,
      "grad_norm": 14.532057762145996,
      "learning_rate": 2.2414806110458284e-05,
      "loss": 1.1294,
      "step": 548
    },
    {
      "epoch": 0.425911559348332,
      "grad_norm": 16.047151565551758,
      "learning_rate": 2.2455934195064626e-05,
      "loss": 1.5741,
      "step": 549
    },
    {
      "epoch": 0.42668735453840184,
      "grad_norm": 13.938572883605957,
      "learning_rate": 2.2497062279670975e-05,
      "loss": 1.8814,
      "step": 550
    },
    {
      "epoch": 0.42746314972847166,
      "grad_norm": 12.493745803833008,
      "learning_rate": 2.253819036427732e-05,
      "loss": 1.4718,
      "step": 551
    },
    {
      "epoch": 0.42823894491854153,
      "grad_norm": 12.112238883972168,
      "learning_rate": 2.2579318448883662e-05,
      "loss": 0.8628,
      "step": 552
    },
    {
      "epoch": 0.42901474010861135,
      "grad_norm": 16.684898376464844,
      "learning_rate": 2.262044653349001e-05,
      "loss": 1.7411,
      "step": 553
    },
    {
      "epoch": 0.42979053529868116,
      "grad_norm": 16.532133102416992,
      "learning_rate": 2.2661574618096353e-05,
      "loss": 1.6768,
      "step": 554
    },
    {
      "epoch": 0.430566330488751,
      "grad_norm": 9.877392768859863,
      "learning_rate": 2.27027027027027e-05,
      "loss": 0.6208,
      "step": 555
    },
    {
      "epoch": 0.4313421256788208,
      "grad_norm": 8.792377471923828,
      "learning_rate": 2.2743830787309047e-05,
      "loss": 0.7062,
      "step": 556
    },
    {
      "epoch": 0.4321179208688906,
      "grad_norm": 10.039380073547363,
      "learning_rate": 2.2784958871915395e-05,
      "loss": 1.0287,
      "step": 557
    },
    {
      "epoch": 0.43289371605896043,
      "grad_norm": 10.16191291809082,
      "learning_rate": 2.2826086956521737e-05,
      "loss": 0.641,
      "step": 558
    },
    {
      "epoch": 0.43366951124903025,
      "grad_norm": 7.070035934448242,
      "learning_rate": 2.2867215041128082e-05,
      "loss": 0.407,
      "step": 559
    },
    {
      "epoch": 0.43444530643910007,
      "grad_norm": 12.430944442749023,
      "learning_rate": 2.2908343125734428e-05,
      "loss": 1.6435,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_Qnli-dev_cosine_accuracy": 0.6796875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8646827936172485,
      "eval_Qnli-dev_cosine_ap": 0.7047500859185081,
      "eval_Qnli-dev_cosine_f1": 0.6735751295336788,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7815592288970947,
      "eval_Qnli-dev_cosine_precision": 0.5685131195335277,
      "eval_Qnli-dev_cosine_recall": 0.826271186440678,
      "eval_Qnli-dev_dot_accuracy": 0.638671875,
      "eval_Qnli-dev_dot_accuracy_threshold": 440.2266540527344,
      "eval_Qnli-dev_dot_ap": 0.6266901766954593,
      "eval_Qnli-dev_dot_f1": 0.6521106259097526,
      "eval_Qnli-dev_dot_f1_threshold": 354.78875732421875,
      "eval_Qnli-dev_dot_precision": 0.49667405764966743,
      "eval_Qnli-dev_dot_recall": 0.9491525423728814,
      "eval_Qnli-dev_euclidean_accuracy": 0.671875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.156564712524414,
      "eval_Qnli-dev_euclidean_ap": 0.7035172952301721,
      "eval_Qnli-dev_euclidean_f1": 0.6764168190127972,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.6650390625,
      "eval_Qnli-dev_euclidean_precision": 0.594855305466238,
      "eval_Qnli-dev_euclidean_recall": 0.7838983050847458,
      "eval_Qnli-dev_manhattan_accuracy": 0.6796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 208.739501953125,
      "eval_Qnli-dev_manhattan_ap": 0.7008656551075609,
      "eval_Qnli-dev_manhattan_f1": 0.682142857142857,
      "eval_Qnli-dev_manhattan_f1_threshold": 264.25848388671875,
      "eval_Qnli-dev_manhattan_precision": 0.5895061728395061,
      "eval_Qnli-dev_manhattan_recall": 0.809322033898305,
      "eval_Qnli-dev_max_accuracy": 0.6796875,
      "eval_Qnli-dev_max_accuracy_threshold": 440.2266540527344,
      "eval_Qnli-dev_max_ap": 0.7047500859185081,
      "eval_Qnli-dev_max_f1": 0.682142857142857,
      "eval_Qnli-dev_max_f1_threshold": 354.78875732421875,
      "eval_Qnli-dev_max_precision": 0.594855305466238,
      "eval_Qnli-dev_max_recall": 0.9491525423728814,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9083981513977051,
      "eval_allNLI-dev_cosine_ap": 0.5860855983218396,
      "eval_allNLI-dev_cosine_f1": 0.5901639344262295,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7923876047134399,
      "eval_allNLI-dev_cosine_precision": 0.45714285714285713,
      "eval_allNLI-dev_cosine_recall": 0.8323699421965318,
      "eval_allNLI-dev_dot_accuracy": 0.681640625,
      "eval_allNLI-dev_dot_accuracy_threshold": 508.9306945800781,
      "eval_allNLI-dev_dot_ap": 0.4813780236759137,
      "eval_allNLI-dev_dot_f1": 0.5576923076923077,
      "eval_allNLI-dev_dot_f1_threshold": 381.4449462890625,
      "eval_allNLI-dev_dot_precision": 0.41786743515850144,
      "eval_allNLI-dev_dot_recall": 0.838150289017341,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.198894500732422,
      "eval_allNLI-dev_euclidean_ap": 0.5883566904425912,
      "eval_allNLI-dev_euclidean_f1": 0.5922746781115881,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.1674165725708,
      "eval_allNLI-dev_euclidean_precision": 0.4709897610921502,
      "eval_allNLI-dev_euclidean_recall": 0.7976878612716763,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 199.45140075683594,
      "eval_allNLI-dev_manhattan_ap": 0.5950713823618554,
      "eval_allNLI-dev_manhattan_f1": 0.6008771929824561,
      "eval_allNLI-dev_manhattan_f1_threshold": 249.6264190673828,
      "eval_allNLI-dev_manhattan_precision": 0.4840989399293286,
      "eval_allNLI-dev_manhattan_recall": 0.791907514450867,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 508.9306945800781,
      "eval_allNLI-dev_max_ap": 0.5950713823618554,
      "eval_allNLI-dev_max_f1": 0.6008771929824561,
      "eval_allNLI-dev_max_f1_threshold": 381.4449462890625,
      "eval_allNLI-dev_max_precision": 0.4840989399293286,
      "eval_allNLI-dev_max_recall": 0.838150289017341,
      "eval_sequential_score": 0.7047500859185081,
      "eval_sts-test_pearson_cosine": 0.7967003868457398,
      "eval_sts-test_pearson_dot": 0.7108868024491241,
      "eval_sts-test_pearson_euclidean": 0.8250765977440847,
      "eval_sts-test_pearson_manhattan": 0.8248898142245689,
      "eval_sts-test_pearson_max": 0.8250765977440847,
      "eval_sts-test_spearman_cosine": 0.8297944914373061,
      "eval_sts-test_spearman_dot": 0.6941270596670145,
      "eval_sts-test_spearman_euclidean": 0.8229759207441439,
      "eval_sts-test_spearman_manhattan": 0.8223873074030629,
      "eval_sts-test_spearman_max": 0.8297944914373061,
      "eval_vitaminc-pairs_loss": 3.898796558380127,
      "eval_vitaminc-pairs_runtime": 5.4964,
      "eval_vitaminc-pairs_samples_per_second": 23.288,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_negation-triplets_loss": 2.1589903831481934,
      "eval_negation-triplets_runtime": 1.0811,
      "eval_negation-triplets_samples_per_second": 118.399,
      "eval_negation-triplets_steps_per_second": 1.85,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_scitail-pairs-pos_loss": 0.2700319290161133,
      "eval_scitail-pairs-pos_runtime": 1.2565,
      "eval_scitail-pairs-pos_samples_per_second": 101.869,
      "eval_scitail-pairs-pos_steps_per_second": 1.592,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_scitail-pairs-qa_loss": 0.08734163641929626,
      "eval_scitail-pairs-qa_runtime": 0.7785,
      "eval_scitail-pairs-qa_samples_per_second": 164.425,
      "eval_scitail-pairs-qa_steps_per_second": 2.569,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_xsum-pairs_loss": 0.63297438621521,
      "eval_xsum-pairs_runtime": 3.9247,
      "eval_xsum-pairs_samples_per_second": 32.614,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_sciq_pairs_loss": 0.09908274561166763,
      "eval_sciq_pairs_runtime": 5.9426,
      "eval_sciq_pairs_samples_per_second": 21.539,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_qasc_pairs_loss": 1.0264776945114136,
      "eval_qasc_pairs_runtime": 0.9175,
      "eval_qasc_pairs_samples_per_second": 139.507,
      "eval_qasc_pairs_steps_per_second": 2.18,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_openbookqa_pairs_loss": 1.9953017234802246,
      "eval_openbookqa_pairs_runtime": 0.8879,
      "eval_openbookqa_pairs_samples_per_second": 144.155,
      "eval_openbookqa_pairs_steps_per_second": 2.252,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_msmarco_pairs_loss": 0.7671529650688171,
      "eval_msmarco_pairs_runtime": 1.9882,
      "eval_msmarco_pairs_samples_per_second": 64.38,
      "eval_msmarco_pairs_steps_per_second": 1.006,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_nq_pairs_loss": 1.5152760744094849,
      "eval_nq_pairs_runtime": 3.3274,
      "eval_nq_pairs_samples_per_second": 38.468,
      "eval_nq_pairs_steps_per_second": 0.601,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_trivia_pairs_loss": 1.2602167129516602,
      "eval_trivia_pairs_runtime": 4.4739,
      "eval_trivia_pairs_samples_per_second": 28.61,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_gooaq_pairs_loss": 1.0592139959335327,
      "eval_gooaq_pairs_runtime": 1.4694,
      "eval_gooaq_pairs_samples_per_second": 87.108,
      "eval_gooaq_pairs_steps_per_second": 1.361,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_paws-pos_loss": 0.05214548483490944,
      "eval_paws-pos_runtime": 1.0328,
      "eval_paws-pos_samples_per_second": 123.929,
      "eval_paws-pos_steps_per_second": 1.936,
      "step": 560
    },
    {
      "epoch": 0.43444530643910007,
      "eval_global_dataset_loss": 0.6379899978637695,
      "eval_global_dataset_runtime": 19.3994,
      "eval_global_dataset_samples_per_second": 21.444,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 560
    },
    {
      "epoch": 0.4352211016291699,
      "grad_norm": 8.060587882995605,
      "learning_rate": 2.2949471210340773e-05,
      "loss": 0.5159,
      "step": 561
    },
    {
      "epoch": 0.4359968968192397,
      "grad_norm": 12.575251579284668,
      "learning_rate": 2.299059929494712e-05,
      "loss": 0.7526,
      "step": 562
    },
    {
      "epoch": 0.4367726920093095,
      "grad_norm": 1.629343867301941,
      "learning_rate": 2.3031727379553464e-05,
      "loss": 0.1587,
      "step": 563
    },
    {
      "epoch": 0.4375484871993794,
      "grad_norm": 11.41546630859375,
      "learning_rate": 2.307285546415981e-05,
      "loss": 0.5435,
      "step": 564
    },
    {
      "epoch": 0.4383242823894492,
      "grad_norm": 1.7364354133605957,
      "learning_rate": 2.3113983548766158e-05,
      "loss": 0.0538,
      "step": 565
    },
    {
      "epoch": 0.439100077579519,
      "grad_norm": 12.36942195892334,
      "learning_rate": 2.31551116333725e-05,
      "loss": 0.8029,
      "step": 566
    },
    {
      "epoch": 0.43987587276958884,
      "grad_norm": 10.771207809448242,
      "learning_rate": 2.3196239717978848e-05,
      "loss": 0.5922,
      "step": 567
    },
    {
      "epoch": 0.44065166795965865,
      "grad_norm": 11.95109748840332,
      "learning_rate": 2.323736780258519e-05,
      "loss": 0.758,
      "step": 568
    },
    {
      "epoch": 0.44142746314972847,
      "grad_norm": 12.328636169433594,
      "learning_rate": 2.3278495887191535e-05,
      "loss": 1.0187,
      "step": 569
    },
    {
      "epoch": 0.4422032583397983,
      "grad_norm": 19.241289138793945,
      "learning_rate": 2.3319623971797884e-05,
      "loss": 1.6983,
      "step": 570
    },
    {
      "epoch": 0.4429790535298681,
      "grad_norm": 5.179631233215332,
      "learning_rate": 2.3360752056404226e-05,
      "loss": 0.1848,
      "step": 571
    },
    {
      "epoch": 0.4437548487199379,
      "grad_norm": 5.7642974853515625,
      "learning_rate": 2.3401880141010575e-05,
      "loss": 0.2219,
      "step": 572
    },
    {
      "epoch": 0.44453064391000774,
      "grad_norm": 14.506200790405273,
      "learning_rate": 2.344300822561692e-05,
      "loss": 1.3927,
      "step": 573
    },
    {
      "epoch": 0.44530643910007756,
      "grad_norm": 19.637861251831055,
      "learning_rate": 2.3484136310223265e-05,
      "loss": 1.8411,
      "step": 574
    },
    {
      "epoch": 0.44608223429014743,
      "grad_norm": 11.264130592346191,
      "learning_rate": 2.352526439482961e-05,
      "loss": 1.2575,
      "step": 575
    },
    {
      "epoch": 0.44685802948021724,
      "grad_norm": 9.943875312805176,
      "learning_rate": 2.3566392479435956e-05,
      "loss": 0.4613,
      "step": 576
    },
    {
      "epoch": 0.44763382467028706,
      "grad_norm": 18.227487564086914,
      "learning_rate": 2.36075205640423e-05,
      "loss": 1.4468,
      "step": 577
    },
    {
      "epoch": 0.4484096198603569,
      "grad_norm": 7.544916152954102,
      "learning_rate": 2.3648648648648646e-05,
      "loss": 0.2955,
      "step": 578
    },
    {
      "epoch": 0.4491854150504267,
      "grad_norm": 20.145084381103516,
      "learning_rate": 2.3689776733254995e-05,
      "loss": 1.9513,
      "step": 579
    },
    {
      "epoch": 0.4499612102404965,
      "grad_norm": 10.472765922546387,
      "learning_rate": 2.3730904817861337e-05,
      "loss": 0.6613,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_Qnli-dev_cosine_accuracy": 0.671875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8580237627029419,
      "eval_Qnli-dev_cosine_ap": 0.6906106027616309,
      "eval_Qnli-dev_cosine_f1": 0.6645056726094004,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7568535208702087,
      "eval_Qnli-dev_cosine_precision": 0.5380577427821522,
      "eval_Qnli-dev_cosine_recall": 0.8686440677966102,
      "eval_Qnli-dev_dot_accuracy": 0.6171875,
      "eval_Qnli-dev_dot_accuracy_threshold": 424.6160888671875,
      "eval_Qnli-dev_dot_ap": 0.5877253516691959,
      "eval_Qnli-dev_dot_f1": 0.6535552193645991,
      "eval_Qnli-dev_dot_f1_threshold": 366.8108825683594,
      "eval_Qnli-dev_dot_precision": 0.508235294117647,
      "eval_Qnli-dev_dot_recall": 0.9152542372881356,
      "eval_Qnli-dev_euclidean_accuracy": 0.681640625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.068756103515625,
      "eval_Qnli-dev_euclidean_ap": 0.6926701107983333,
      "eval_Qnli-dev_euclidean_f1": 0.6644407345575959,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.61347770690918,
      "eval_Qnli-dev_euclidean_precision": 0.5482093663911846,
      "eval_Qnli-dev_euclidean_recall": 0.8432203389830508,
      "eval_Qnli-dev_manhattan_accuracy": 0.671875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 234.57846069335938,
      "eval_Qnli-dev_manhattan_ap": 0.6898931246400537,
      "eval_Qnli-dev_manhattan_f1": 0.6666666666666666,
      "eval_Qnli-dev_manhattan_f1_threshold": 300.1756286621094,
      "eval_Qnli-dev_manhattan_precision": 0.5215311004784688,
      "eval_Qnli-dev_manhattan_recall": 0.923728813559322,
      "eval_Qnli-dev_max_accuracy": 0.681640625,
      "eval_Qnli-dev_max_accuracy_threshold": 424.6160888671875,
      "eval_Qnli-dev_max_ap": 0.6926701107983333,
      "eval_Qnli-dev_max_f1": 0.6666666666666666,
      "eval_Qnli-dev_max_f1_threshold": 366.8108825683594,
      "eval_Qnli-dev_max_precision": 0.5482093663911846,
      "eval_Qnli-dev_max_recall": 0.923728813559322,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.910841166973114,
      "eval_allNLI-dev_cosine_ap": 0.5792769511418232,
      "eval_allNLI-dev_cosine_f1": 0.6000000000000001,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8421999216079712,
      "eval_allNLI-dev_cosine_precision": 0.5286343612334802,
      "eval_allNLI-dev_cosine_recall": 0.6936416184971098,
      "eval_allNLI-dev_dot_accuracy": 0.669921875,
      "eval_allNLI-dev_dot_accuracy_threshold": 516.0306396484375,
      "eval_allNLI-dev_dot_ap": 0.4544345636312002,
      "eval_allNLI-dev_dot_f1": 0.5593869731800767,
      "eval_allNLI-dev_dot_f1_threshold": 381.7574157714844,
      "eval_allNLI-dev_dot_precision": 0.4183381088825215,
      "eval_allNLI-dev_dot_recall": 0.8439306358381503,
      "eval_allNLI-dev_euclidean_accuracy": 0.708984375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.458547592163086,
      "eval_allNLI-dev_euclidean_ap": 0.5804084999214881,
      "eval_allNLI-dev_euclidean_f1": 0.6040609137055837,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.48227310180664,
      "eval_allNLI-dev_euclidean_precision": 0.5384615384615384,
      "eval_allNLI-dev_euclidean_recall": 0.6878612716763006,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 192.69842529296875,
      "eval_allNLI-dev_manhattan_ap": 0.5873005763609229,
      "eval_allNLI-dev_manhattan_f1": 0.6115288220551378,
      "eval_allNLI-dev_manhattan_f1_threshold": 226.03591918945312,
      "eval_allNLI-dev_manhattan_precision": 0.5398230088495575,
      "eval_allNLI-dev_manhattan_recall": 0.7052023121387283,
      "eval_allNLI-dev_max_accuracy": 0.71484375,
      "eval_allNLI-dev_max_accuracy_threshold": 516.0306396484375,
      "eval_allNLI-dev_max_ap": 0.5873005763609229,
      "eval_allNLI-dev_max_f1": 0.6115288220551378,
      "eval_allNLI-dev_max_f1_threshold": 381.7574157714844,
      "eval_allNLI-dev_max_precision": 0.5398230088495575,
      "eval_allNLI-dev_max_recall": 0.8439306358381503,
      "eval_sequential_score": 0.6926701107983333,
      "eval_sts-test_pearson_cosine": 0.7830476745769297,
      "eval_sts-test_pearson_dot": 0.7134737787708518,
      "eval_sts-test_pearson_euclidean": 0.8084054218256234,
      "eval_sts-test_pearson_manhattan": 0.8085754477519613,
      "eval_sts-test_pearson_max": 0.8085754477519613,
      "eval_sts-test_spearman_cosine": 0.8163193496172189,
      "eval_sts-test_spearman_dot": 0.7038809998486226,
      "eval_sts-test_spearman_euclidean": 0.8066933085406675,
      "eval_sts-test_spearman_manhattan": 0.8065405724855386,
      "eval_sts-test_spearman_max": 0.8163193496172189,
      "eval_vitaminc-pairs_loss": 3.749843120574951,
      "eval_vitaminc-pairs_runtime": 5.5021,
      "eval_vitaminc-pairs_samples_per_second": 23.264,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_negation-triplets_loss": 2.174208879470825,
      "eval_negation-triplets_runtime": 1.0775,
      "eval_negation-triplets_samples_per_second": 118.796,
      "eval_negation-triplets_steps_per_second": 1.856,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_scitail-pairs-pos_loss": 0.20740848779678345,
      "eval_scitail-pairs-pos_runtime": 1.2653,
      "eval_scitail-pairs-pos_samples_per_second": 101.162,
      "eval_scitail-pairs-pos_steps_per_second": 1.581,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_scitail-pairs-qa_loss": 0.041522521525621414,
      "eval_scitail-pairs-qa_runtime": 0.7805,
      "eval_scitail-pairs-qa_samples_per_second": 163.994,
      "eval_scitail-pairs-qa_steps_per_second": 2.562,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_xsum-pairs_loss": 0.6239547729492188,
      "eval_xsum-pairs_runtime": 3.9039,
      "eval_xsum-pairs_samples_per_second": 32.788,
      "eval_xsum-pairs_steps_per_second": 0.512,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_sciq_pairs_loss": 0.08843886107206345,
      "eval_sciq_pairs_runtime": 5.9325,
      "eval_sciq_pairs_samples_per_second": 21.576,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_qasc_pairs_loss": 0.8510118722915649,
      "eval_qasc_pairs_runtime": 0.9184,
      "eval_qasc_pairs_samples_per_second": 139.369,
      "eval_qasc_pairs_steps_per_second": 2.178,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_openbookqa_pairs_loss": 2.0407955646514893,
      "eval_openbookqa_pairs_runtime": 0.8719,
      "eval_openbookqa_pairs_samples_per_second": 146.801,
      "eval_openbookqa_pairs_steps_per_second": 2.294,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_msmarco_pairs_loss": 0.7645685076713562,
      "eval_msmarco_pairs_runtime": 1.9805,
      "eval_msmarco_pairs_samples_per_second": 64.631,
      "eval_msmarco_pairs_steps_per_second": 1.01,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_nq_pairs_loss": 1.5348799228668213,
      "eval_nq_pairs_runtime": 3.3191,
      "eval_nq_pairs_samples_per_second": 38.564,
      "eval_nq_pairs_steps_per_second": 0.603,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_trivia_pairs_loss": 1.1610352993011475,
      "eval_trivia_pairs_runtime": 4.4651,
      "eval_trivia_pairs_samples_per_second": 28.667,
      "eval_trivia_pairs_steps_per_second": 0.448,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_gooaq_pairs_loss": 1.169563889503479,
      "eval_gooaq_pairs_runtime": 1.474,
      "eval_gooaq_pairs_samples_per_second": 86.836,
      "eval_gooaq_pairs_steps_per_second": 1.357,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_paws-pos_loss": 0.04819422587752342,
      "eval_paws-pos_runtime": 1.0244,
      "eval_paws-pos_samples_per_second": 124.955,
      "eval_paws-pos_steps_per_second": 1.952,
      "step": 580
    },
    {
      "epoch": 0.4499612102404965,
      "eval_global_dataset_loss": 0.6053475737571716,
      "eval_global_dataset_runtime": 19.4254,
      "eval_global_dataset_samples_per_second": 21.415,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 580
    },
    {
      "epoch": 0.45073700543056633,
      "grad_norm": 11.696528434753418,
      "learning_rate": 2.3772032902467682e-05,
      "loss": 0.7514,
      "step": 581
    },
    {
      "epoch": 0.45151280062063615,
      "grad_norm": 16.50416374206543,
      "learning_rate": 2.381316098707403e-05,
      "loss": 1.5422,
      "step": 582
    },
    {
      "epoch": 0.45228859581070596,
      "grad_norm": 4.802879333496094,
      "learning_rate": 2.3854289071680373e-05,
      "loss": 0.1387,
      "step": 583
    },
    {
      "epoch": 0.4530643910007758,
      "grad_norm": 11.374921798706055,
      "learning_rate": 2.389541715628672e-05,
      "loss": 0.8216,
      "step": 584
    },
    {
      "epoch": 0.4538401861908456,
      "grad_norm": 9.237058639526367,
      "learning_rate": 2.3936545240893063e-05,
      "loss": 0.4173,
      "step": 585
    },
    {
      "epoch": 0.4546159813809154,
      "grad_norm": 15.692505836486816,
      "learning_rate": 2.397767332549941e-05,
      "loss": 1.8684,
      "step": 586
    },
    {
      "epoch": 0.4553917765709853,
      "grad_norm": 9.588768005371094,
      "learning_rate": 2.4018801410105757e-05,
      "loss": 0.6013,
      "step": 587
    },
    {
      "epoch": 0.4561675717610551,
      "grad_norm": 9.542437553405762,
      "learning_rate": 2.40599294947121e-05,
      "loss": 0.6788,
      "step": 588
    },
    {
      "epoch": 0.4569433669511249,
      "grad_norm": 17.467397689819336,
      "learning_rate": 2.4101057579318448e-05,
      "loss": 1.2349,
      "step": 589
    },
    {
      "epoch": 0.45771916214119474,
      "grad_norm": 23.1237850189209,
      "learning_rate": 2.4142185663924793e-05,
      "loss": 3.4482,
      "step": 590
    },
    {
      "epoch": 0.45849495733126455,
      "grad_norm": 14.146553039550781,
      "learning_rate": 2.418331374853114e-05,
      "loss": 1.3932,
      "step": 591
    },
    {
      "epoch": 0.45927075252133437,
      "grad_norm": 5.95766544342041,
      "learning_rate": 2.4224441833137484e-05,
      "loss": 0.2497,
      "step": 592
    },
    {
      "epoch": 0.4600465477114042,
      "grad_norm": 18.849685668945312,
      "learning_rate": 2.4265569917743826e-05,
      "loss": 1.9145,
      "step": 593
    },
    {
      "epoch": 0.460822342901474,
      "grad_norm": 10.007401466369629,
      "learning_rate": 2.4306698002350174e-05,
      "loss": 0.8326,
      "step": 594
    },
    {
      "epoch": 0.4615981380915438,
      "grad_norm": 9.367300987243652,
      "learning_rate": 2.434782608695652e-05,
      "loss": 0.6774,
      "step": 595
    },
    {
      "epoch": 0.46237393328161364,
      "grad_norm": 10.141812324523926,
      "learning_rate": 2.4388954171562868e-05,
      "loss": 1.1696,
      "step": 596
    },
    {
      "epoch": 0.46314972847168345,
      "grad_norm": 7.813787937164307,
      "learning_rate": 2.443008225616921e-05,
      "loss": 0.4832,
      "step": 597
    },
    {
      "epoch": 0.46392552366175327,
      "grad_norm": 11.965947151184082,
      "learning_rate": 2.4471210340775555e-05,
      "loss": 1.7278,
      "step": 598
    },
    {
      "epoch": 0.46470131885182314,
      "grad_norm": 21.20833396911621,
      "learning_rate": 2.45123384253819e-05,
      "loss": 3.4533,
      "step": 599
    },
    {
      "epoch": 0.46547711404189296,
      "grad_norm": 6.598328113555908,
      "learning_rate": 2.4553466509988246e-05,
      "loss": 0.3008,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_Qnli-dev_cosine_accuracy": 0.669921875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8546062707901001,
      "eval_Qnli-dev_cosine_ap": 0.6845613555308852,
      "eval_Qnli-dev_cosine_f1": 0.6733668341708542,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7931475639343262,
      "eval_Qnli-dev_cosine_precision": 0.556786703601108,
      "eval_Qnli-dev_cosine_recall": 0.8516949152542372,
      "eval_Qnli-dev_dot_accuracy": 0.623046875,
      "eval_Qnli-dev_dot_accuracy_threshold": 475.34100341796875,
      "eval_Qnli-dev_dot_ap": 0.589675055189002,
      "eval_Qnli-dev_dot_f1": 0.6545454545454547,
      "eval_Qnli-dev_dot_f1_threshold": 418.89013671875,
      "eval_Qnli-dev_dot_precision": 0.5365853658536586,
      "eval_Qnli-dev_dot_recall": 0.8389830508474576,
      "eval_Qnli-dev_euclidean_accuracy": 0.669921875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.711584091186523,
      "eval_Qnli-dev_euclidean_ap": 0.68823807349383,
      "eval_Qnli-dev_euclidean_f1": 0.6677165354330709,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.21005630493164,
      "eval_Qnli-dev_euclidean_precision": 0.531328320802005,
      "eval_Qnli-dev_euclidean_recall": 0.8983050847457628,
      "eval_Qnli-dev_manhattan_accuracy": 0.66015625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 219.9610137939453,
      "eval_Qnli-dev_manhattan_ap": 0.6910623883856871,
      "eval_Qnli-dev_manhattan_f1": 0.672811059907834,
      "eval_Qnli-dev_manhattan_f1_threshold": 291.64935302734375,
      "eval_Qnli-dev_manhattan_precision": 0.5277108433734939,
      "eval_Qnli-dev_manhattan_recall": 0.9279661016949152,
      "eval_Qnli-dev_max_accuracy": 0.669921875,
      "eval_Qnli-dev_max_accuracy_threshold": 475.34100341796875,
      "eval_Qnli-dev_max_ap": 0.6910623883856871,
      "eval_Qnli-dev_max_f1": 0.6733668341708542,
      "eval_Qnli-dev_max_f1_threshold": 418.89013671875,
      "eval_Qnli-dev_max_precision": 0.556786703601108,
      "eval_Qnli-dev_max_recall": 0.9279661016949152,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9173166751861572,
      "eval_allNLI-dev_cosine_ap": 0.5882976992957594,
      "eval_allNLI-dev_cosine_f1": 0.6072289156626506,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8463546633720398,
      "eval_allNLI-dev_cosine_precision": 0.5206611570247934,
      "eval_allNLI-dev_cosine_recall": 0.7283236994219653,
      "eval_allNLI-dev_dot_accuracy": 0.67578125,
      "eval_allNLI-dev_dot_accuracy_threshold": 573.2156982421875,
      "eval_allNLI-dev_dot_ap": 0.4861132554738923,
      "eval_allNLI-dev_dot_f1": 0.5644171779141105,
      "eval_allNLI-dev_dot_f1_threshold": 412.581298828125,
      "eval_allNLI-dev_dot_precision": 0.43670886075949367,
      "eval_allNLI-dev_dot_recall": 0.7976878612716763,
      "eval_allNLI-dev_euclidean_accuracy": 0.70703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.563434600830078,
      "eval_allNLI-dev_euclidean_ap": 0.5892715220992573,
      "eval_allNLI-dev_euclidean_f1": 0.6071428571428571,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.366493225097656,
      "eval_allNLI-dev_euclidean_precision": 0.49454545454545457,
      "eval_allNLI-dev_euclidean_recall": 0.7861271676300579,
      "eval_allNLI-dev_manhattan_accuracy": 0.712890625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 211.37059020996094,
      "eval_allNLI-dev_manhattan_ap": 0.5886668227955144,
      "eval_allNLI-dev_manhattan_f1": 0.6112266112266113,
      "eval_allNLI-dev_manhattan_f1_threshold": 250.82669067382812,
      "eval_allNLI-dev_manhattan_precision": 0.4772727272727273,
      "eval_allNLI-dev_manhattan_recall": 0.8497109826589595,
      "eval_allNLI-dev_max_accuracy": 0.712890625,
      "eval_allNLI-dev_max_accuracy_threshold": 573.2156982421875,
      "eval_allNLI-dev_max_ap": 0.5892715220992573,
      "eval_allNLI-dev_max_f1": 0.6112266112266113,
      "eval_allNLI-dev_max_f1_threshold": 412.581298828125,
      "eval_allNLI-dev_max_precision": 0.5206611570247934,
      "eval_allNLI-dev_max_recall": 0.8497109826589595,
      "eval_sequential_score": 0.6910623883856871,
      "eval_sts-test_pearson_cosine": 0.7963356679643628,
      "eval_sts-test_pearson_dot": 0.7140726972439533,
      "eval_sts-test_pearson_euclidean": 0.8266048092120172,
      "eval_sts-test_pearson_manhattan": 0.8247628412570818,
      "eval_sts-test_pearson_max": 0.8266048092120172,
      "eval_sts-test_spearman_cosine": 0.8302385134528314,
      "eval_sts-test_spearman_dot": 0.7051283965086464,
      "eval_sts-test_spearman_euclidean": 0.8232894033301907,
      "eval_sts-test_spearman_manhattan": 0.8211249190704728,
      "eval_sts-test_spearman_max": 0.8302385134528314,
      "eval_vitaminc-pairs_loss": 3.8651621341705322,
      "eval_vitaminc-pairs_runtime": 5.4814,
      "eval_vitaminc-pairs_samples_per_second": 23.352,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_negation-triplets_loss": 2.1524651050567627,
      "eval_negation-triplets_runtime": 1.0681,
      "eval_negation-triplets_samples_per_second": 119.841,
      "eval_negation-triplets_steps_per_second": 1.873,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_scitail-pairs-pos_loss": 0.21253004670143127,
      "eval_scitail-pairs-pos_runtime": 1.3023,
      "eval_scitail-pairs-pos_samples_per_second": 98.285,
      "eval_scitail-pairs-pos_steps_per_second": 1.536,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_scitail-pairs-qa_loss": 0.06775914877653122,
      "eval_scitail-pairs-qa_runtime": 0.7769,
      "eval_scitail-pairs-qa_samples_per_second": 164.753,
      "eval_scitail-pairs-qa_steps_per_second": 2.574,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_xsum-pairs_loss": 0.6388774514198303,
      "eval_xsum-pairs_runtime": 3.9218,
      "eval_xsum-pairs_samples_per_second": 32.638,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_sciq_pairs_loss": 0.09762287139892578,
      "eval_sciq_pairs_runtime": 5.899,
      "eval_sciq_pairs_samples_per_second": 21.699,
      "eval_sciq_pairs_steps_per_second": 0.339,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_qasc_pairs_loss": 0.8573689460754395,
      "eval_qasc_pairs_runtime": 0.9019,
      "eval_qasc_pairs_samples_per_second": 141.92,
      "eval_qasc_pairs_steps_per_second": 2.218,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_openbookqa_pairs_loss": 1.850547194480896,
      "eval_openbookqa_pairs_runtime": 0.8564,
      "eval_openbookqa_pairs_samples_per_second": 149.47,
      "eval_openbookqa_pairs_steps_per_second": 2.335,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_msmarco_pairs_loss": 0.747097909450531,
      "eval_msmarco_pairs_runtime": 1.9665,
      "eval_msmarco_pairs_samples_per_second": 65.089,
      "eval_msmarco_pairs_steps_per_second": 1.017,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_nq_pairs_loss": 1.386681318283081,
      "eval_nq_pairs_runtime": 3.3195,
      "eval_nq_pairs_samples_per_second": 38.56,
      "eval_nq_pairs_steps_per_second": 0.603,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_trivia_pairs_loss": 1.2255401611328125,
      "eval_trivia_pairs_runtime": 4.4764,
      "eval_trivia_pairs_samples_per_second": 28.595,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_gooaq_pairs_loss": 1.087661623954773,
      "eval_gooaq_pairs_runtime": 1.4674,
      "eval_gooaq_pairs_samples_per_second": 87.229,
      "eval_gooaq_pairs_steps_per_second": 1.363,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_paws-pos_loss": 0.05389420688152313,
      "eval_paws-pos_runtime": 1.0371,
      "eval_paws-pos_samples_per_second": 123.421,
      "eval_paws-pos_steps_per_second": 1.928,
      "step": 600
    },
    {
      "epoch": 0.46547711404189296,
      "eval_global_dataset_loss": 0.6292778849601746,
      "eval_global_dataset_runtime": 19.4321,
      "eval_global_dataset_samples_per_second": 21.408,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 600
    },
    {
      "epoch": 0.4662529092319628,
      "grad_norm": 13.785943031311035,
      "learning_rate": 2.4594594594594595e-05,
      "loss": 1.4827,
      "step": 601
    },
    {
      "epoch": 0.4670287044220326,
      "grad_norm": 9.836690902709961,
      "learning_rate": 2.4635722679200937e-05,
      "loss": 0.632,
      "step": 602
    },
    {
      "epoch": 0.4678044996121024,
      "grad_norm": 12.741625785827637,
      "learning_rate": 2.4676850763807282e-05,
      "loss": 1.0095,
      "step": 603
    },
    {
      "epoch": 0.4685802948021722,
      "grad_norm": 9.55395221710205,
      "learning_rate": 2.471797884841363e-05,
      "loss": 0.5745,
      "step": 604
    },
    {
      "epoch": 0.46935608999224204,
      "grad_norm": 9.53487777709961,
      "learning_rate": 2.4759106933019972e-05,
      "loss": 0.6422,
      "step": 605
    },
    {
      "epoch": 0.47013188518231186,
      "grad_norm": 11.145259857177734,
      "learning_rate": 2.480023501762632e-05,
      "loss": 0.7526,
      "step": 606
    },
    {
      "epoch": 0.4709076803723817,
      "grad_norm": 15.308662414550781,
      "learning_rate": 2.4841363102232666e-05,
      "loss": 1.5273,
      "step": 607
    },
    {
      "epoch": 0.4716834755624515,
      "grad_norm": 1.5294910669326782,
      "learning_rate": 2.4882491186839012e-05,
      "loss": 0.0704,
      "step": 608
    },
    {
      "epoch": 0.4724592707525213,
      "grad_norm": 10.075404167175293,
      "learning_rate": 2.4923619271445357e-05,
      "loss": 0.6261,
      "step": 609
    },
    {
      "epoch": 0.4732350659425912,
      "grad_norm": 6.055626392364502,
      "learning_rate": 2.49647473560517e-05,
      "loss": 0.2799,
      "step": 610
    },
    {
      "epoch": 0.474010861132661,
      "grad_norm": 12.325764656066895,
      "learning_rate": 2.5005875440658048e-05,
      "loss": 1.5529,
      "step": 611
    },
    {
      "epoch": 0.4747866563227308,
      "grad_norm": 9.178507804870605,
      "learning_rate": 2.5047003525264393e-05,
      "loss": 0.5666,
      "step": 612
    },
    {
      "epoch": 0.47556245151280063,
      "grad_norm": 8.433951377868652,
      "learning_rate": 2.5088131609870738e-05,
      "loss": 0.4426,
      "step": 613
    },
    {
      "epoch": 0.47633824670287045,
      "grad_norm": 10.24896240234375,
      "learning_rate": 2.5129259694477083e-05,
      "loss": 0.9742,
      "step": 614
    },
    {
      "epoch": 0.47711404189294027,
      "grad_norm": 9.197361946105957,
      "learning_rate": 2.517038777908343e-05,
      "loss": 0.4615,
      "step": 615
    },
    {
      "epoch": 0.4778898370830101,
      "grad_norm": 9.704472541809082,
      "learning_rate": 2.5211515863689774e-05,
      "loss": 0.4863,
      "step": 616
    },
    {
      "epoch": 0.4786656322730799,
      "grad_norm": 18.687057495117188,
      "learning_rate": 2.525264394829612e-05,
      "loss": 1.4415,
      "step": 617
    },
    {
      "epoch": 0.4794414274631497,
      "grad_norm": 13.103899002075195,
      "learning_rate": 2.5293772032902468e-05,
      "loss": 0.866,
      "step": 618
    },
    {
      "epoch": 0.48021722265321953,
      "grad_norm": 13.415831565856934,
      "learning_rate": 2.533490011750881e-05,
      "loss": 1.7064,
      "step": 619
    },
    {
      "epoch": 0.48099301784328935,
      "grad_norm": 12.0526762008667,
      "learning_rate": 2.5376028202115155e-05,
      "loss": 1.5001,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_Qnli-dev_cosine_accuracy": 0.662109375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8541783094406128,
      "eval_Qnli-dev_cosine_ap": 0.6909571670552859,
      "eval_Qnli-dev_cosine_f1": 0.6708860759493672,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7411938905715942,
      "eval_Qnli-dev_cosine_precision": 0.5353535353535354,
      "eval_Qnli-dev_cosine_recall": 0.8983050847457628,
      "eval_Qnli-dev_dot_accuracy": 0.623046875,
      "eval_Qnli-dev_dot_accuracy_threshold": 438.66668701171875,
      "eval_Qnli-dev_dot_ap": 0.5838936342619079,
      "eval_Qnli-dev_dot_f1": 0.660377358490566,
      "eval_Qnli-dev_dot_f1_threshold": 371.63031005859375,
      "eval_Qnli-dev_dot_precision": 0.525,
      "eval_Qnli-dev_dot_recall": 0.8898305084745762,
      "eval_Qnli-dev_euclidean_accuracy": 0.66015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.478965759277344,
      "eval_Qnli-dev_euclidean_ap": 0.6923881432370431,
      "eval_Qnli-dev_euclidean_f1": 0.6702702702702703,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.774309158325195,
      "eval_Qnli-dev_euclidean_precision": 0.5830721003134797,
      "eval_Qnli-dev_euclidean_recall": 0.788135593220339,
      "eval_Qnli-dev_manhattan_accuracy": 0.66015625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 224.37429809570312,
      "eval_Qnli-dev_manhattan_ap": 0.6961468323934411,
      "eval_Qnli-dev_manhattan_f1": 0.6759581881533101,
      "eval_Qnli-dev_manhattan_f1_threshold": 269.2730712890625,
      "eval_Qnli-dev_manhattan_precision": 0.5739644970414202,
      "eval_Qnli-dev_manhattan_recall": 0.8220338983050848,
      "eval_Qnli-dev_max_accuracy": 0.662109375,
      "eval_Qnli-dev_max_accuracy_threshold": 438.66668701171875,
      "eval_Qnli-dev_max_ap": 0.6961468323934411,
      "eval_Qnli-dev_max_f1": 0.6759581881533101,
      "eval_Qnli-dev_max_f1_threshold": 371.63031005859375,
      "eval_Qnli-dev_max_precision": 0.5830721003134797,
      "eval_Qnli-dev_max_recall": 0.8983050847457628,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8691669702529907,
      "eval_allNLI-dev_cosine_ap": 0.5879530656854549,
      "eval_allNLI-dev_cosine_f1": 0.6106194690265486,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8064013123512268,
      "eval_allNLI-dev_cosine_precision": 0.4946236559139785,
      "eval_allNLI-dev_cosine_recall": 0.7976878612716763,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 462.31378173828125,
      "eval_allNLI-dev_dot_ap": 0.47263393740678317,
      "eval_allNLI-dev_dot_f1": 0.5720164609053497,
      "eval_allNLI-dev_dot_f1_threshold": 382.060546875,
      "eval_allNLI-dev_dot_precision": 0.4440894568690096,
      "eval_allNLI-dev_dot_recall": 0.8034682080924855,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 11.587467193603516,
      "eval_allNLI-dev_euclidean_ap": 0.5864231085900702,
      "eval_allNLI-dev_euclidean_f1": 0.6073752711496746,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.026927947998047,
      "eval_allNLI-dev_euclidean_precision": 0.4861111111111111,
      "eval_allNLI-dev_euclidean_recall": 0.8092485549132948,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 211.80812072753906,
      "eval_allNLI-dev_manhattan_ap": 0.5904776044396406,
      "eval_allNLI-dev_manhattan_f1": 0.6153846153846154,
      "eval_allNLI-dev_manhattan_f1_threshold": 238.34698486328125,
      "eval_allNLI-dev_manhattan_precision": 0.5267489711934157,
      "eval_allNLI-dev_manhattan_recall": 0.7398843930635838,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 462.31378173828125,
      "eval_allNLI-dev_max_ap": 0.5904776044396406,
      "eval_allNLI-dev_max_f1": 0.6153846153846154,
      "eval_allNLI-dev_max_f1_threshold": 382.060546875,
      "eval_allNLI-dev_max_precision": 0.5267489711934157,
      "eval_allNLI-dev_max_recall": 0.8092485549132948,
      "eval_sequential_score": 0.6961468323934411,
      "eval_sts-test_pearson_cosine": 0.807324798824198,
      "eval_sts-test_pearson_dot": 0.7772455289329745,
      "eval_sts-test_pearson_euclidean": 0.8298443537503775,
      "eval_sts-test_pearson_manhattan": 0.8262557698820469,
      "eval_sts-test_pearson_max": 0.8298443537503775,
      "eval_sts-test_spearman_cosine": 0.8349379776653264,
      "eval_sts-test_spearman_dot": 0.7772892684871415,
      "eval_sts-test_spearman_euclidean": 0.8241774921125029,
      "eval_sts-test_spearman_manhattan": 0.8208295607452898,
      "eval_sts-test_spearman_max": 0.8349379776653264,
      "eval_vitaminc-pairs_loss": 4.181798458099365,
      "eval_vitaminc-pairs_runtime": 5.4888,
      "eval_vitaminc-pairs_samples_per_second": 23.32,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_negation-triplets_loss": 2.0779168605804443,
      "eval_negation-triplets_runtime": 1.0714,
      "eval_negation-triplets_samples_per_second": 119.469,
      "eval_negation-triplets_steps_per_second": 1.867,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_scitail-pairs-pos_loss": 0.24158324301242828,
      "eval_scitail-pairs-pos_runtime": 1.2667,
      "eval_scitail-pairs-pos_samples_per_second": 101.053,
      "eval_scitail-pairs-pos_steps_per_second": 1.579,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_scitail-pairs-qa_loss": 0.04018586128950119,
      "eval_scitail-pairs-qa_runtime": 0.7708,
      "eval_scitail-pairs-qa_samples_per_second": 166.056,
      "eval_scitail-pairs-qa_steps_per_second": 2.595,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_xsum-pairs_loss": 0.6078460216522217,
      "eval_xsum-pairs_runtime": 3.9134,
      "eval_xsum-pairs_samples_per_second": 32.708,
      "eval_xsum-pairs_steps_per_second": 0.511,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_sciq_pairs_loss": 0.08504968881607056,
      "eval_sciq_pairs_runtime": 5.9307,
      "eval_sciq_pairs_samples_per_second": 21.583,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_qasc_pairs_loss": 0.8349754214286804,
      "eval_qasc_pairs_runtime": 0.9008,
      "eval_qasc_pairs_samples_per_second": 142.097,
      "eval_qasc_pairs_steps_per_second": 2.22,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_openbookqa_pairs_loss": 1.880592703819275,
      "eval_openbookqa_pairs_runtime": 0.8689,
      "eval_openbookqa_pairs_samples_per_second": 147.316,
      "eval_openbookqa_pairs_steps_per_second": 2.302,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_msmarco_pairs_loss": 0.7329286932945251,
      "eval_msmarco_pairs_runtime": 1.9747,
      "eval_msmarco_pairs_samples_per_second": 64.821,
      "eval_msmarco_pairs_steps_per_second": 1.013,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_nq_pairs_loss": 1.375463843345642,
      "eval_nq_pairs_runtime": 3.338,
      "eval_nq_pairs_samples_per_second": 38.346,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_trivia_pairs_loss": 1.2347986698150635,
      "eval_trivia_pairs_runtime": 4.4899,
      "eval_trivia_pairs_samples_per_second": 28.508,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_gooaq_pairs_loss": 1.143622875213623,
      "eval_gooaq_pairs_runtime": 1.4714,
      "eval_gooaq_pairs_samples_per_second": 86.991,
      "eval_gooaq_pairs_steps_per_second": 1.359,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_paws-pos_loss": 0.045590754598379135,
      "eval_paws-pos_runtime": 1.0358,
      "eval_paws-pos_samples_per_second": 123.573,
      "eval_paws-pos_steps_per_second": 1.931,
      "step": 620
    },
    {
      "epoch": 0.48099301784328935,
      "eval_global_dataset_loss": 0.5951407551765442,
      "eval_global_dataset_runtime": 19.4168,
      "eval_global_dataset_samples_per_second": 21.425,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 620
    },
    {
      "epoch": 0.48176881303335917,
      "grad_norm": 3.3584859371185303,
      "learning_rate": 2.5417156286721504e-05,
      "loss": 0.0943,
      "step": 621
    },
    {
      "epoch": 0.48254460822342904,
      "grad_norm": 13.811856269836426,
      "learning_rate": 2.5458284371327846e-05,
      "loss": 0.5077,
      "step": 622
    },
    {
      "epoch": 0.48332040341349886,
      "grad_norm": 9.970905303955078,
      "learning_rate": 2.5499412455934194e-05,
      "loss": 0.6746,
      "step": 623
    },
    {
      "epoch": 0.4840961986035687,
      "grad_norm": 10.551204681396484,
      "learning_rate": 2.5540540540540536e-05,
      "loss": 0.6953,
      "step": 624
    },
    {
      "epoch": 0.4848719937936385,
      "grad_norm": 3.4784350395202637,
      "learning_rate": 2.5581668625146885e-05,
      "loss": 0.0762,
      "step": 625
    },
    {
      "epoch": 0.4856477889837083,
      "grad_norm": 8.014740943908691,
      "learning_rate": 2.562279670975323e-05,
      "loss": 0.4902,
      "step": 626
    },
    {
      "epoch": 0.4864235841737781,
      "grad_norm": 8.231643676757812,
      "learning_rate": 2.5663924794359572e-05,
      "loss": 0.4359,
      "step": 627
    },
    {
      "epoch": 0.48719937936384794,
      "grad_norm": 12.098679542541504,
      "learning_rate": 2.570505287896592e-05,
      "loss": 1.5008,
      "step": 628
    },
    {
      "epoch": 0.48797517455391776,
      "grad_norm": 11.154753684997559,
      "learning_rate": 2.5746180963572266e-05,
      "loss": 0.901,
      "step": 629
    },
    {
      "epoch": 0.4887509697439876,
      "grad_norm": 8.817254066467285,
      "learning_rate": 2.578730904817861e-05,
      "loss": 0.3591,
      "step": 630
    },
    {
      "epoch": 0.4895267649340574,
      "grad_norm": 14.75892162322998,
      "learning_rate": 2.5828437132784957e-05,
      "loss": 1.3486,
      "step": 631
    },
    {
      "epoch": 0.4903025601241272,
      "grad_norm": 10.355876922607422,
      "learning_rate": 2.5869565217391302e-05,
      "loss": 0.6322,
      "step": 632
    },
    {
      "epoch": 0.4910783553141971,
      "grad_norm": 10.594958305358887,
      "learning_rate": 2.5910693301997647e-05,
      "loss": 0.6911,
      "step": 633
    },
    {
      "epoch": 0.4918541505042669,
      "grad_norm": 9.579641342163086,
      "learning_rate": 2.5951821386603993e-05,
      "loss": 0.4946,
      "step": 634
    },
    {
      "epoch": 0.4926299456943367,
      "grad_norm": 14.586888313293457,
      "learning_rate": 2.599294947121034e-05,
      "loss": 1.3486,
      "step": 635
    },
    {
      "epoch": 0.49340574088440653,
      "grad_norm": 5.319215774536133,
      "learning_rate": 2.6034077555816683e-05,
      "loss": 0.1691,
      "step": 636
    },
    {
      "epoch": 0.49418153607447635,
      "grad_norm": 3.732201099395752,
      "learning_rate": 2.607520564042303e-05,
      "loss": 0.1111,
      "step": 637
    },
    {
      "epoch": 0.49495733126454616,
      "grad_norm": 2.3062543869018555,
      "learning_rate": 2.6116333725029374e-05,
      "loss": 0.0328,
      "step": 638
    },
    {
      "epoch": 0.495733126454616,
      "grad_norm": 10.06052017211914,
      "learning_rate": 2.615746180963572e-05,
      "loss": 0.4712,
      "step": 639
    },
    {
      "epoch": 0.4965089216446858,
      "grad_norm": 19.183080673217773,
      "learning_rate": 2.6198589894242068e-05,
      "loss": 1.479,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_Qnli-dev_cosine_accuracy": 0.658203125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8601222038269043,
      "eval_Qnli-dev_cosine_ap": 0.686720032091346,
      "eval_Qnli-dev_cosine_f1": 0.6749226006191951,
      "eval_Qnli-dev_cosine_f1_threshold": 0.6975479125976562,
      "eval_Qnli-dev_cosine_precision": 0.5317073170731708,
      "eval_Qnli-dev_cosine_recall": 0.923728813559322,
      "eval_Qnli-dev_dot_accuracy": 0.626953125,
      "eval_Qnli-dev_dot_accuracy_threshold": 407.0140380859375,
      "eval_Qnli-dev_dot_ap": 0.6013138350063858,
      "eval_Qnli-dev_dot_f1": 0.6617862371888725,
      "eval_Qnli-dev_dot_f1_threshold": 313.9571838378906,
      "eval_Qnli-dev_dot_precision": 0.5055928411633109,
      "eval_Qnli-dev_dot_recall": 0.9576271186440678,
      "eval_Qnli-dev_euclidean_accuracy": 0.6484375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.301708221435547,
      "eval_Qnli-dev_euclidean_ap": 0.6848164247929951,
      "eval_Qnli-dev_euclidean_f1": 0.6751592356687899,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.13784408569336,
      "eval_Qnli-dev_euclidean_precision": 0.5408163265306123,
      "eval_Qnli-dev_euclidean_recall": 0.8983050847457628,
      "eval_Qnli-dev_manhattan_accuracy": 0.65625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 233.0150909423828,
      "eval_Qnli-dev_manhattan_ap": 0.6881294548528416,
      "eval_Qnli-dev_manhattan_f1": 0.68125,
      "eval_Qnli-dev_manhattan_f1_threshold": 307.3375244140625,
      "eval_Qnli-dev_manhattan_precision": 0.5396039603960396,
      "eval_Qnli-dev_manhattan_recall": 0.923728813559322,
      "eval_Qnli-dev_max_accuracy": 0.658203125,
      "eval_Qnli-dev_max_accuracy_threshold": 407.0140380859375,
      "eval_Qnli-dev_max_ap": 0.6881294548528416,
      "eval_Qnli-dev_max_f1": 0.68125,
      "eval_Qnli-dev_max_f1_threshold": 313.9571838378906,
      "eval_Qnli-dev_max_precision": 0.5408163265306123,
      "eval_Qnli-dev_max_recall": 0.9576271186440678,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.923399806022644,
      "eval_allNLI-dev_cosine_ap": 0.5970543483716874,
      "eval_allNLI-dev_cosine_f1": 0.6134020618556701,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8509269952774048,
      "eval_allNLI-dev_cosine_precision": 0.5534883720930233,
      "eval_allNLI-dev_cosine_recall": 0.6878612716763006,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 447.8410949707031,
      "eval_allNLI-dev_dot_ap": 0.4805633326048575,
      "eval_allNLI-dev_dot_f1": 0.5677179962894249,
      "eval_allNLI-dev_dot_f1_threshold": 357.12249755859375,
      "eval_allNLI-dev_dot_precision": 0.4180327868852459,
      "eval_allNLI-dev_dot_recall": 0.884393063583815,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.865427017211914,
      "eval_allNLI-dev_euclidean_ap": 0.5969117820320243,
      "eval_allNLI-dev_euclidean_f1": 0.6181818181818183,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.873517036437988,
      "eval_allNLI-dev_euclidean_precision": 0.5093632958801498,
      "eval_allNLI-dev_euclidean_recall": 0.7861271676300579,
      "eval_allNLI-dev_manhattan_accuracy": 0.712890625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 195.62420654296875,
      "eval_allNLI-dev_manhattan_ap": 0.6016030414147083,
      "eval_allNLI-dev_manhattan_f1": 0.6238095238095238,
      "eval_allNLI-dev_manhattan_f1_threshold": 224.73388671875,
      "eval_allNLI-dev_manhattan_precision": 0.5303643724696356,
      "eval_allNLI-dev_manhattan_recall": 0.7572254335260116,
      "eval_allNLI-dev_max_accuracy": 0.712890625,
      "eval_allNLI-dev_max_accuracy_threshold": 447.8410949707031,
      "eval_allNLI-dev_max_ap": 0.6016030414147083,
      "eval_allNLI-dev_max_f1": 0.6238095238095238,
      "eval_allNLI-dev_max_f1_threshold": 357.12249755859375,
      "eval_allNLI-dev_max_precision": 0.5534883720930233,
      "eval_allNLI-dev_max_recall": 0.884393063583815,
      "eval_sequential_score": 0.6881294548528416,
      "eval_sts-test_pearson_cosine": 0.7934872507202126,
      "eval_sts-test_pearson_dot": 0.7596638361218665,
      "eval_sts-test_pearson_euclidean": 0.8149453649979157,
      "eval_sts-test_pearson_manhattan": 0.8142733776143798,
      "eval_sts-test_pearson_max": 0.8149453649979157,
      "eval_sts-test_spearman_cosine": 0.8221940714563749,
      "eval_sts-test_spearman_dot": 0.7498613098828755,
      "eval_sts-test_spearman_euclidean": 0.8123915314048957,
      "eval_sts-test_spearman_manhattan": 0.8101784472753069,
      "eval_sts-test_spearman_max": 0.8221940714563749,
      "eval_vitaminc-pairs_loss": 3.602985143661499,
      "eval_vitaminc-pairs_runtime": 5.5062,
      "eval_vitaminc-pairs_samples_per_second": 23.247,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_negation-triplets_loss": 2.081930160522461,
      "eval_negation-triplets_runtime": 1.0932,
      "eval_negation-triplets_samples_per_second": 117.092,
      "eval_negation-triplets_steps_per_second": 1.83,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_scitail-pairs-pos_loss": 0.24661773443222046,
      "eval_scitail-pairs-pos_runtime": 1.2906,
      "eval_scitail-pairs-pos_samples_per_second": 99.178,
      "eval_scitail-pairs-pos_steps_per_second": 1.55,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_scitail-pairs-qa_loss": 0.035427238792181015,
      "eval_scitail-pairs-qa_runtime": 0.7845,
      "eval_scitail-pairs-qa_samples_per_second": 163.161,
      "eval_scitail-pairs-qa_steps_per_second": 2.549,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_xsum-pairs_loss": 0.6712877154350281,
      "eval_xsum-pairs_runtime": 3.9261,
      "eval_xsum-pairs_samples_per_second": 32.602,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_sciq_pairs_loss": 0.09236491471529007,
      "eval_sciq_pairs_runtime": 5.9782,
      "eval_sciq_pairs_samples_per_second": 21.411,
      "eval_sciq_pairs_steps_per_second": 0.335,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_qasc_pairs_loss": 0.7825262546539307,
      "eval_qasc_pairs_runtime": 0.918,
      "eval_qasc_pairs_samples_per_second": 139.434,
      "eval_qasc_pairs_steps_per_second": 2.179,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_openbookqa_pairs_loss": 1.8152996301651,
      "eval_openbookqa_pairs_runtime": 0.8717,
      "eval_openbookqa_pairs_samples_per_second": 146.837,
      "eval_openbookqa_pairs_steps_per_second": 2.294,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_msmarco_pairs_loss": 0.8499898314476013,
      "eval_msmarco_pairs_runtime": 1.9764,
      "eval_msmarco_pairs_samples_per_second": 64.764,
      "eval_msmarco_pairs_steps_per_second": 1.012,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_nq_pairs_loss": 1.3879870176315308,
      "eval_nq_pairs_runtime": 3.3372,
      "eval_nq_pairs_samples_per_second": 38.355,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_trivia_pairs_loss": 1.2515995502471924,
      "eval_trivia_pairs_runtime": 4.502,
      "eval_trivia_pairs_samples_per_second": 28.432,
      "eval_trivia_pairs_steps_per_second": 0.444,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_gooaq_pairs_loss": 1.1852116584777832,
      "eval_gooaq_pairs_runtime": 1.4703,
      "eval_gooaq_pairs_samples_per_second": 87.055,
      "eval_gooaq_pairs_steps_per_second": 1.36,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_paws-pos_loss": 0.04851341247558594,
      "eval_paws-pos_runtime": 1.0391,
      "eval_paws-pos_samples_per_second": 123.189,
      "eval_paws-pos_steps_per_second": 1.925,
      "step": 640
    },
    {
      "epoch": 0.4965089216446858,
      "eval_global_dataset_loss": 0.5946388244628906,
      "eval_global_dataset_runtime": 19.4336,
      "eval_global_dataset_samples_per_second": 21.406,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 640
    },
    {
      "epoch": 0.4972847168347556,
      "grad_norm": 21.70700454711914,
      "learning_rate": 2.623971797884841e-05,
      "loss": 1.7148,
      "step": 641
    },
    {
      "epoch": 0.49806051202482543,
      "grad_norm": 13.550596237182617,
      "learning_rate": 2.628084606345476e-05,
      "loss": 0.9538,
      "step": 642
    },
    {
      "epoch": 0.49883630721489525,
      "grad_norm": 12.98841667175293,
      "learning_rate": 2.6321974148061104e-05,
      "loss": 0.6802,
      "step": 643
    },
    {
      "epoch": 0.49961210240496506,
      "grad_norm": 14.727252960205078,
      "learning_rate": 2.6363102232667446e-05,
      "loss": 1.379,
      "step": 644
    },
    {
      "epoch": 0.5003878975950349,
      "grad_norm": 15.235370635986328,
      "learning_rate": 2.6404230317273794e-05,
      "loss": 1.2811,
      "step": 645
    },
    {
      "epoch": 0.5011636927851048,
      "grad_norm": 9.874800682067871,
      "learning_rate": 2.644535840188014e-05,
      "loss": 0.6225,
      "step": 646
    },
    {
      "epoch": 0.5019394879751745,
      "grad_norm": 8.094162940979004,
      "learning_rate": 2.6486486486486485e-05,
      "loss": 0.4069,
      "step": 647
    },
    {
      "epoch": 0.5027152831652444,
      "grad_norm": 10.230360984802246,
      "learning_rate": 2.652761457109283e-05,
      "loss": 0.6908,
      "step": 648
    },
    {
      "epoch": 0.5034910783553141,
      "grad_norm": 9.848830223083496,
      "learning_rate": 2.6568742655699172e-05,
      "loss": 1.2194,
      "step": 649
    },
    {
      "epoch": 0.504266873545384,
      "grad_norm": 7.501684665679932,
      "learning_rate": 2.660987074030552e-05,
      "loss": 0.4051,
      "step": 650
    },
    {
      "epoch": 0.5050426687354539,
      "grad_norm": 9.760265350341797,
      "learning_rate": 2.6650998824911866e-05,
      "loss": 0.7243,
      "step": 651
    },
    {
      "epoch": 0.5058184639255237,
      "grad_norm": 9.546927452087402,
      "learning_rate": 2.669212690951821e-05,
      "loss": 0.5951,
      "step": 652
    },
    {
      "epoch": 0.5065942591155935,
      "grad_norm": 10.041341781616211,
      "learning_rate": 2.6733254994124557e-05,
      "loss": 0.697,
      "step": 653
    },
    {
      "epoch": 0.5073700543056633,
      "grad_norm": 12.542648315429688,
      "learning_rate": 2.6774383078730905e-05,
      "loss": 1.1804,
      "step": 654
    },
    {
      "epoch": 0.5081458494957332,
      "grad_norm": 16.35436248779297,
      "learning_rate": 2.6815511163337247e-05,
      "loss": 1.5398,
      "step": 655
    },
    {
      "epoch": 0.5089216446858029,
      "grad_norm": 10.068395614624023,
      "learning_rate": 2.6856639247943592e-05,
      "loss": 0.6309,
      "step": 656
    },
    {
      "epoch": 0.5096974398758728,
      "grad_norm": 10.921636581420898,
      "learning_rate": 2.689776733254994e-05,
      "loss": 1.1841,
      "step": 657
    },
    {
      "epoch": 0.5104732350659426,
      "grad_norm": 8.969158172607422,
      "learning_rate": 2.6938895417156283e-05,
      "loss": 0.5512,
      "step": 658
    },
    {
      "epoch": 0.5112490302560124,
      "grad_norm": 8.403101921081543,
      "learning_rate": 2.698002350176263e-05,
      "loss": 0.4967,
      "step": 659
    },
    {
      "epoch": 0.5120248254460822,
      "grad_norm": 8.566783905029297,
      "learning_rate": 2.7021151586368977e-05,
      "loss": 0.6073,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_Qnli-dev_cosine_accuracy": 0.654296875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8996038436889648,
      "eval_Qnli-dev_cosine_ap": 0.7004482553812913,
      "eval_Qnli-dev_cosine_f1": 0.6656394453004623,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7712167501449585,
      "eval_Qnli-dev_cosine_precision": 0.5230024213075061,
      "eval_Qnli-dev_cosine_recall": 0.9152542372881356,
      "eval_Qnli-dev_dot_accuracy": 0.607421875,
      "eval_Qnli-dev_dot_accuracy_threshold": 473.8558349609375,
      "eval_Qnli-dev_dot_ap": 0.5821478992671898,
      "eval_Qnli-dev_dot_f1": 0.654867256637168,
      "eval_Qnli-dev_dot_f1_threshold": 376.8409423828125,
      "eval_Qnli-dev_dot_precision": 0.502262443438914,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.662109375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.721826553344727,
      "eval_Qnli-dev_euclidean_ap": 0.7013404158321883,
      "eval_Qnli-dev_euclidean_f1": 0.6700336700336701,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.47653865814209,
      "eval_Qnli-dev_euclidean_precision": 0.5558659217877095,
      "eval_Qnli-dev_euclidean_recall": 0.8432203389830508,
      "eval_Qnli-dev_manhattan_accuracy": 0.662109375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 205.10516357421875,
      "eval_Qnli-dev_manhattan_ap": 0.6999425706618274,
      "eval_Qnli-dev_manhattan_f1": 0.6758620689655173,
      "eval_Qnli-dev_manhattan_f1_threshold": 250.75860595703125,
      "eval_Qnli-dev_manhattan_precision": 0.5697674418604651,
      "eval_Qnli-dev_manhattan_recall": 0.8305084745762712,
      "eval_Qnli-dev_max_accuracy": 0.662109375,
      "eval_Qnli-dev_max_accuracy_threshold": 473.8558349609375,
      "eval_Qnli-dev_max_ap": 0.7013404158321883,
      "eval_Qnli-dev_max_f1": 0.6758620689655173,
      "eval_Qnli-dev_max_f1_threshold": 376.8409423828125,
      "eval_Qnli-dev_max_precision": 0.5697674418604651,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.708984375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.923484206199646,
      "eval_allNLI-dev_cosine_ap": 0.5939446852176556,
      "eval_allNLI-dev_cosine_f1": 0.62004662004662,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8559108972549438,
      "eval_allNLI-dev_cosine_precision": 0.51953125,
      "eval_allNLI-dev_cosine_recall": 0.7687861271676301,
      "eval_allNLI-dev_dot_accuracy": 0.671875,
      "eval_allNLI-dev_dot_accuracy_threshold": 485.31005859375,
      "eval_allNLI-dev_dot_ap": 0.4760478892867671,
      "eval_allNLI-dev_dot_f1": 0.5488029465930018,
      "eval_allNLI-dev_dot_f1_threshold": 391.462646484375,
      "eval_allNLI-dev_dot_precision": 0.4027027027027027,
      "eval_allNLI-dev_dot_recall": 0.861271676300578,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.66196060180664,
      "eval_allNLI-dev_euclidean_ap": 0.5937230814089611,
      "eval_allNLI-dev_euclidean_f1": 0.62582056892779,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.413965225219727,
      "eval_allNLI-dev_euclidean_precision": 0.5035211267605634,
      "eval_allNLI-dev_euclidean_recall": 0.8265895953757225,
      "eval_allNLI-dev_manhattan_accuracy": 0.712890625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 162.57366943359375,
      "eval_allNLI-dev_manhattan_ap": 0.5944493712705848,
      "eval_allNLI-dev_manhattan_f1": 0.6161137440758294,
      "eval_allNLI-dev_manhattan_f1_threshold": 212.20864868164062,
      "eval_allNLI-dev_manhattan_precision": 0.5220883534136547,
      "eval_allNLI-dev_manhattan_recall": 0.7514450867052023,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 485.31005859375,
      "eval_allNLI-dev_max_ap": 0.5944493712705848,
      "eval_allNLI-dev_max_f1": 0.62582056892779,
      "eval_allNLI-dev_max_f1_threshold": 391.462646484375,
      "eval_allNLI-dev_max_precision": 0.5220883534136547,
      "eval_allNLI-dev_max_recall": 0.861271676300578,
      "eval_sequential_score": 0.7013404158321883,
      "eval_sts-test_pearson_cosine": 0.8024477677767311,
      "eval_sts-test_pearson_dot": 0.7207474095128635,
      "eval_sts-test_pearson_euclidean": 0.8240013125588865,
      "eval_sts-test_pearson_manhattan": 0.8202441757516123,
      "eval_sts-test_pearson_max": 0.8240013125588865,
      "eval_sts-test_spearman_cosine": 0.8286941474222141,
      "eval_sts-test_spearman_dot": 0.7141839037537189,
      "eval_sts-test_spearman_euclidean": 0.8182952968126948,
      "eval_sts-test_spearman_manhattan": 0.8143809039787892,
      "eval_sts-test_spearman_max": 0.8286941474222141,
      "eval_vitaminc-pairs_loss": 3.6424007415771484,
      "eval_vitaminc-pairs_runtime": 5.5225,
      "eval_vitaminc-pairs_samples_per_second": 23.178,
      "eval_vitaminc-pairs_steps_per_second": 0.362,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_negation-triplets_loss": 1.972699761390686,
      "eval_negation-triplets_runtime": 1.0905,
      "eval_negation-triplets_samples_per_second": 117.374,
      "eval_negation-triplets_steps_per_second": 1.834,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_scitail-pairs-pos_loss": 0.2093043029308319,
      "eval_scitail-pairs-pos_runtime": 1.3112,
      "eval_scitail-pairs-pos_samples_per_second": 97.617,
      "eval_scitail-pairs-pos_steps_per_second": 1.525,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_scitail-pairs-qa_loss": 0.042313043028116226,
      "eval_scitail-pairs-qa_runtime": 0.7806,
      "eval_scitail-pairs-qa_samples_per_second": 163.97,
      "eval_scitail-pairs-qa_steps_per_second": 2.562,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_xsum-pairs_loss": 0.6652930378913879,
      "eval_xsum-pairs_runtime": 3.9336,
      "eval_xsum-pairs_samples_per_second": 32.54,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_sciq_pairs_loss": 0.07537802308797836,
      "eval_sciq_pairs_runtime": 5.9709,
      "eval_sciq_pairs_samples_per_second": 21.437,
      "eval_sciq_pairs_steps_per_second": 0.335,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_qasc_pairs_loss": 0.7105440497398376,
      "eval_qasc_pairs_runtime": 0.92,
      "eval_qasc_pairs_samples_per_second": 139.131,
      "eval_qasc_pairs_steps_per_second": 2.174,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_openbookqa_pairs_loss": 1.8124297857284546,
      "eval_openbookqa_pairs_runtime": 0.8772,
      "eval_openbookqa_pairs_samples_per_second": 145.922,
      "eval_openbookqa_pairs_steps_per_second": 2.28,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_msmarco_pairs_loss": 0.7674368023872375,
      "eval_msmarco_pairs_runtime": 1.9834,
      "eval_msmarco_pairs_samples_per_second": 64.537,
      "eval_msmarco_pairs_steps_per_second": 1.008,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_nq_pairs_loss": 1.2386846542358398,
      "eval_nq_pairs_runtime": 3.3394,
      "eval_nq_pairs_samples_per_second": 38.331,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_trivia_pairs_loss": 1.059404730796814,
      "eval_trivia_pairs_runtime": 4.4937,
      "eval_trivia_pairs_samples_per_second": 28.484,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_gooaq_pairs_loss": 1.0584646463394165,
      "eval_gooaq_pairs_runtime": 1.4687,
      "eval_gooaq_pairs_samples_per_second": 87.15,
      "eval_gooaq_pairs_steps_per_second": 1.362,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_paws-pos_loss": 0.05129885673522949,
      "eval_paws-pos_runtime": 1.0343,
      "eval_paws-pos_samples_per_second": 123.755,
      "eval_paws-pos_steps_per_second": 1.934,
      "step": 660
    },
    {
      "epoch": 0.5120248254460822,
      "eval_global_dataset_loss": 0.575580894947052,
      "eval_global_dataset_runtime": 19.4356,
      "eval_global_dataset_samples_per_second": 21.404,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 660
    },
    {
      "epoch": 0.5128006206361521,
      "grad_norm": 4.421882629394531,
      "learning_rate": 2.706227967097532e-05,
      "loss": 0.1732,
      "step": 661
    },
    {
      "epoch": 0.5135764158262219,
      "grad_norm": 8.8997163772583,
      "learning_rate": 2.7103407755581668e-05,
      "loss": 1.046,
      "step": 662
    },
    {
      "epoch": 0.5143522110162917,
      "grad_norm": 9.779997825622559,
      "learning_rate": 2.714453584018801e-05,
      "loss": 0.5477,
      "step": 663
    },
    {
      "epoch": 0.5151280062063616,
      "grad_norm": 12.259178161621094,
      "learning_rate": 2.7185663924794358e-05,
      "loss": 1.4658,
      "step": 664
    },
    {
      "epoch": 0.5159038013964313,
      "grad_norm": 9.47537899017334,
      "learning_rate": 2.7226792009400703e-05,
      "loss": 0.5393,
      "step": 665
    },
    {
      "epoch": 0.5166795965865012,
      "grad_norm": 10.445185661315918,
      "learning_rate": 2.7267920094007045e-05,
      "loss": 0.6117,
      "step": 666
    },
    {
      "epoch": 0.517455391776571,
      "grad_norm": 17.931814193725586,
      "learning_rate": 2.7309048178613394e-05,
      "loss": 1.598,
      "step": 667
    },
    {
      "epoch": 0.5182311869666408,
      "grad_norm": 14.246345520019531,
      "learning_rate": 2.735017626321974e-05,
      "loss": 1.1418,
      "step": 668
    },
    {
      "epoch": 0.5190069821567106,
      "grad_norm": 17.05196762084961,
      "learning_rate": 2.7391304347826085e-05,
      "loss": 1.4109,
      "step": 669
    },
    {
      "epoch": 0.5197827773467805,
      "grad_norm": 10.566195487976074,
      "learning_rate": 2.743243243243243e-05,
      "loss": 0.7768,
      "step": 670
    },
    {
      "epoch": 0.5205585725368502,
      "grad_norm": 12.296074867248535,
      "learning_rate": 2.747356051703878e-05,
      "loss": 1.0928,
      "step": 671
    },
    {
      "epoch": 0.5213343677269201,
      "grad_norm": 15.5636625289917,
      "learning_rate": 2.751468860164512e-05,
      "loss": 1.3598,
      "step": 672
    },
    {
      "epoch": 0.5221101629169899,
      "grad_norm": 13.134448051452637,
      "learning_rate": 2.7555816686251466e-05,
      "loss": 1.4472,
      "step": 673
    },
    {
      "epoch": 0.5228859581070597,
      "grad_norm": 15.9171781539917,
      "learning_rate": 2.7596944770857814e-05,
      "loss": 1.6369,
      "step": 674
    },
    {
      "epoch": 0.5236617532971296,
      "grad_norm": 13.004121780395508,
      "learning_rate": 2.7638072855464156e-05,
      "loss": 1.1756,
      "step": 675
    },
    {
      "epoch": 0.5244375484871994,
      "grad_norm": 10.514543533325195,
      "learning_rate": 2.7679200940070505e-05,
      "loss": 0.741,
      "step": 676
    },
    {
      "epoch": 0.5252133436772692,
      "grad_norm": 9.157439231872559,
      "learning_rate": 2.7720329024676847e-05,
      "loss": 1.0661,
      "step": 677
    },
    {
      "epoch": 0.525989138867339,
      "grad_norm": 13.167852401733398,
      "learning_rate": 2.7761457109283192e-05,
      "loss": 1.3677,
      "step": 678
    },
    {
      "epoch": 0.5267649340574089,
      "grad_norm": 13.578255653381348,
      "learning_rate": 2.780258519388954e-05,
      "loss": 1.5355,
      "step": 679
    },
    {
      "epoch": 0.5275407292474786,
      "grad_norm": 12.97792911529541,
      "learning_rate": 2.7843713278495883e-05,
      "loss": 1.4658,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_Qnli-dev_cosine_accuracy": 0.654296875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8644264340400696,
      "eval_Qnli-dev_cosine_ap": 0.6922050596627256,
      "eval_Qnli-dev_cosine_f1": 0.6696562032884903,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7277312874794006,
      "eval_Qnli-dev_cosine_precision": 0.5173210161662818,
      "eval_Qnli-dev_cosine_recall": 0.9491525423728814,
      "eval_Qnli-dev_dot_accuracy": 0.61328125,
      "eval_Qnli-dev_dot_accuracy_threshold": 463.3890075683594,
      "eval_Qnli-dev_dot_ap": 0.6026016894387726,
      "eval_Qnli-dev_dot_f1": 0.6595419847328244,
      "eval_Qnli-dev_dot_f1_threshold": 386.73138427734375,
      "eval_Qnli-dev_dot_precision": 0.5155131264916468,
      "eval_Qnli-dev_dot_recall": 0.9152542372881356,
      "eval_Qnli-dev_euclidean_accuracy": 0.65625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.804697036743164,
      "eval_Qnli-dev_euclidean_ap": 0.6866391477878779,
      "eval_Qnli-dev_euclidean_f1": 0.6736526946107785,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.03914451599121,
      "eval_Qnli-dev_euclidean_precision": 0.5208333333333334,
      "eval_Qnli-dev_euclidean_recall": 0.9533898305084746,
      "eval_Qnli-dev_manhattan_accuracy": 0.658203125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 198.21234130859375,
      "eval_Qnli-dev_manhattan_ap": 0.6895014812351475,
      "eval_Qnli-dev_manhattan_f1": 0.6776859504132232,
      "eval_Qnli-dev_manhattan_f1_threshold": 268.044677734375,
      "eval_Qnli-dev_manhattan_precision": 0.5555555555555556,
      "eval_Qnli-dev_manhattan_recall": 0.8686440677966102,
      "eval_Qnli-dev_max_accuracy": 0.658203125,
      "eval_Qnli-dev_max_accuracy_threshold": 463.3890075683594,
      "eval_Qnli-dev_max_ap": 0.6922050596627256,
      "eval_Qnli-dev_max_f1": 0.6776859504132232,
      "eval_Qnli-dev_max_f1_threshold": 386.73138427734375,
      "eval_Qnli-dev_max_precision": 0.5555555555555556,
      "eval_Qnli-dev_max_recall": 0.9533898305084746,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.934099555015564,
      "eval_allNLI-dev_cosine_ap": 0.5873651502429142,
      "eval_allNLI-dev_cosine_f1": 0.6115288220551378,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8647106885910034,
      "eval_allNLI-dev_cosine_precision": 0.5398230088495575,
      "eval_allNLI-dev_cosine_recall": 0.7052023121387283,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 525.916748046875,
      "eval_allNLI-dev_dot_ap": 0.4668792849736388,
      "eval_allNLI-dev_dot_f1": 0.5579710144927535,
      "eval_allNLI-dev_dot_f1_threshold": 390.6253356933594,
      "eval_allNLI-dev_dot_precision": 0.40633245382585753,
      "eval_allNLI-dev_dot_recall": 0.8901734104046243,
      "eval_allNLI-dev_euclidean_accuracy": 0.71484375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.74948501586914,
      "eval_allNLI-dev_euclidean_ap": 0.5864169354164954,
      "eval_allNLI-dev_euclidean_f1": 0.6095238095238095,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.080808639526367,
      "eval_allNLI-dev_euclidean_precision": 0.5182186234817814,
      "eval_allNLI-dev_euclidean_recall": 0.7398843930635838,
      "eval_allNLI-dev_manhattan_accuracy": 0.708984375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 151.1354522705078,
      "eval_allNLI-dev_manhattan_ap": 0.5867145227357142,
      "eval_allNLI-dev_manhattan_f1": 0.6075949367088609,
      "eval_allNLI-dev_manhattan_f1_threshold": 208.61737060546875,
      "eval_allNLI-dev_manhattan_precision": 0.5405405405405406,
      "eval_allNLI-dev_manhattan_recall": 0.6936416184971098,
      "eval_allNLI-dev_max_accuracy": 0.71484375,
      "eval_allNLI-dev_max_accuracy_threshold": 525.916748046875,
      "eval_allNLI-dev_max_ap": 0.5873651502429142,
      "eval_allNLI-dev_max_f1": 0.6115288220551378,
      "eval_allNLI-dev_max_f1_threshold": 390.6253356933594,
      "eval_allNLI-dev_max_precision": 0.5405405405405406,
      "eval_allNLI-dev_max_recall": 0.8901734104046243,
      "eval_sequential_score": 0.6922050596627256,
      "eval_sts-test_pearson_cosine": 0.8021800342859011,
      "eval_sts-test_pearson_dot": 0.7361186235573641,
      "eval_sts-test_pearson_euclidean": 0.8288547012828461,
      "eval_sts-test_pearson_manhattan": 0.8282797630468803,
      "eval_sts-test_pearson_max": 0.8288547012828461,
      "eval_sts-test_spearman_cosine": 0.839665500918714,
      "eval_sts-test_spearman_dot": 0.7279097421401206,
      "eval_sts-test_spearman_euclidean": 0.8282389823426023,
      "eval_sts-test_spearman_manhattan": 0.8274848340856346,
      "eval_sts-test_spearman_max": 0.839665500918714,
      "eval_vitaminc-pairs_loss": 3.6738266944885254,
      "eval_vitaminc-pairs_runtime": 5.4865,
      "eval_vitaminc-pairs_samples_per_second": 23.33,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_negation-triplets_loss": 1.974615454673767,
      "eval_negation-triplets_runtime": 1.08,
      "eval_negation-triplets_samples_per_second": 118.521,
      "eval_negation-triplets_steps_per_second": 1.852,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_scitail-pairs-pos_loss": 0.205085888504982,
      "eval_scitail-pairs-pos_runtime": 1.2766,
      "eval_scitail-pairs-pos_samples_per_second": 100.266,
      "eval_scitail-pairs-pos_steps_per_second": 1.567,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_scitail-pairs-qa_loss": 0.04349052533507347,
      "eval_scitail-pairs-qa_runtime": 0.7803,
      "eval_scitail-pairs-qa_samples_per_second": 164.045,
      "eval_scitail-pairs-qa_steps_per_second": 2.563,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_xsum-pairs_loss": 0.5800377726554871,
      "eval_xsum-pairs_runtime": 3.9272,
      "eval_xsum-pairs_samples_per_second": 32.594,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_sciq_pairs_loss": 0.08015203475952148,
      "eval_sciq_pairs_runtime": 5.9538,
      "eval_sciq_pairs_samples_per_second": 21.499,
      "eval_sciq_pairs_steps_per_second": 0.336,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_qasc_pairs_loss": 0.6561543345451355,
      "eval_qasc_pairs_runtime": 0.9173,
      "eval_qasc_pairs_samples_per_second": 139.534,
      "eval_qasc_pairs_steps_per_second": 2.18,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_openbookqa_pairs_loss": 1.7960286140441895,
      "eval_openbookqa_pairs_runtime": 0.8707,
      "eval_openbookqa_pairs_samples_per_second": 147.013,
      "eval_openbookqa_pairs_steps_per_second": 2.297,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_msmarco_pairs_loss": 0.680317223072052,
      "eval_msmarco_pairs_runtime": 1.9735,
      "eval_msmarco_pairs_samples_per_second": 64.859,
      "eval_msmarco_pairs_steps_per_second": 1.013,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_nq_pairs_loss": 1.3359739780426025,
      "eval_nq_pairs_runtime": 3.3344,
      "eval_nq_pairs_samples_per_second": 38.388,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_trivia_pairs_loss": 0.9878504872322083,
      "eval_trivia_pairs_runtime": 4.4789,
      "eval_trivia_pairs_samples_per_second": 28.578,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_gooaq_pairs_loss": 0.9781962633132935,
      "eval_gooaq_pairs_runtime": 1.4847,
      "eval_gooaq_pairs_samples_per_second": 86.213,
      "eval_gooaq_pairs_steps_per_second": 1.347,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_paws-pos_loss": 0.05222996696829796,
      "eval_paws-pos_runtime": 1.0371,
      "eval_paws-pos_samples_per_second": 123.416,
      "eval_paws-pos_steps_per_second": 1.928,
      "step": 680
    },
    {
      "epoch": 0.5275407292474786,
      "eval_global_dataset_loss": 0.5629461407661438,
      "eval_global_dataset_runtime": 19.3857,
      "eval_global_dataset_samples_per_second": 21.459,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 680
    },
    {
      "epoch": 0.5283165244375485,
      "grad_norm": 13.323928833007812,
      "learning_rate": 2.788484136310223e-05,
      "loss": 1.2859,
      "step": 681
    },
    {
      "epoch": 0.5290923196276183,
      "grad_norm": 12.878803253173828,
      "learning_rate": 2.7925969447708577e-05,
      "loss": 1.2639,
      "step": 682
    },
    {
      "epoch": 0.5298681148176881,
      "grad_norm": 3.876774787902832,
      "learning_rate": 2.796709753231492e-05,
      "loss": 0.1404,
      "step": 683
    },
    {
      "epoch": 0.5306439100077579,
      "grad_norm": 3.3705224990844727,
      "learning_rate": 2.8008225616921267e-05,
      "loss": 0.0899,
      "step": 684
    },
    {
      "epoch": 0.5314197051978278,
      "grad_norm": 14.240885734558105,
      "learning_rate": 2.8049353701527613e-05,
      "loss": 1.3069,
      "step": 685
    },
    {
      "epoch": 0.5321955003878976,
      "grad_norm": 16.7686824798584,
      "learning_rate": 2.8090481786133958e-05,
      "loss": 1.3905,
      "step": 686
    },
    {
      "epoch": 0.5329712955779674,
      "grad_norm": 8.619479179382324,
      "learning_rate": 2.8131609870740303e-05,
      "loss": 0.4895,
      "step": 687
    },
    {
      "epoch": 0.5337470907680373,
      "grad_norm": 12.283214569091797,
      "learning_rate": 2.8172737955346652e-05,
      "loss": 1.4455,
      "step": 688
    },
    {
      "epoch": 0.534522885958107,
      "grad_norm": 11.175566673278809,
      "learning_rate": 2.8213866039952994e-05,
      "loss": 0.5758,
      "step": 689
    },
    {
      "epoch": 0.5352986811481769,
      "grad_norm": 9.76007080078125,
      "learning_rate": 2.825499412455934e-05,
      "loss": 0.7879,
      "step": 690
    },
    {
      "epoch": 0.5360744763382467,
      "grad_norm": 13.363899230957031,
      "learning_rate": 2.8296122209165684e-05,
      "loss": 0.6647,
      "step": 691
    },
    {
      "epoch": 0.5368502715283165,
      "grad_norm": 20.8702449798584,
      "learning_rate": 2.833725029377203e-05,
      "loss": 2.8455,
      "step": 692
    },
    {
      "epoch": 0.5376260667183863,
      "grad_norm": 16.099815368652344,
      "learning_rate": 2.8378378378378378e-05,
      "loss": 1.1986,
      "step": 693
    },
    {
      "epoch": 0.5384018619084562,
      "grad_norm": 6.164529323577881,
      "learning_rate": 2.841950646298472e-05,
      "loss": 0.1884,
      "step": 694
    },
    {
      "epoch": 0.5391776570985259,
      "grad_norm": 9.595008850097656,
      "learning_rate": 2.8460634547591065e-05,
      "loss": 0.611,
      "step": 695
    },
    {
      "epoch": 0.5399534522885958,
      "grad_norm": 13.926246643066406,
      "learning_rate": 2.8501762632197414e-05,
      "loss": 1.3208,
      "step": 696
    },
    {
      "epoch": 0.5407292474786657,
      "grad_norm": 7.313656330108643,
      "learning_rate": 2.8542890716803756e-05,
      "loss": 0.3679,
      "step": 697
    },
    {
      "epoch": 0.5415050426687354,
      "grad_norm": 12.229180335998535,
      "learning_rate": 2.8584018801410105e-05,
      "loss": 0.9536,
      "step": 698
    },
    {
      "epoch": 0.5422808378588053,
      "grad_norm": 13.998590469360352,
      "learning_rate": 2.862514688601645e-05,
      "loss": 1.3225,
      "step": 699
    },
    {
      "epoch": 0.5430566330488751,
      "grad_norm": 7.1051926612854,
      "learning_rate": 2.8666274970622792e-05,
      "loss": 0.3916,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_Qnli-dev_cosine_accuracy": 0.66015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8566777110099792,
      "eval_Qnli-dev_cosine_ap": 0.6928397191777511,
      "eval_Qnli-dev_cosine_f1": 0.6676737160120847,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7259476184844971,
      "eval_Qnli-dev_cosine_precision": 0.5187793427230047,
      "eval_Qnli-dev_cosine_recall": 0.9364406779661016,
      "eval_Qnli-dev_dot_accuracy": 0.640625,
      "eval_Qnli-dev_dot_accuracy_threshold": 472.6525573730469,
      "eval_Qnli-dev_dot_ap": 0.6044743448434562,
      "eval_Qnli-dev_dot_f1": 0.6723259762308998,
      "eval_Qnli-dev_dot_f1_threshold": 417.5654602050781,
      "eval_Qnli-dev_dot_precision": 0.5609065155807366,
      "eval_Qnli-dev_dot_recall": 0.8389830508474576,
      "eval_Qnli-dev_euclidean_accuracy": 0.658203125,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.445531845092773,
      "eval_Qnli-dev_euclidean_ap": 0.6879518054174698,
      "eval_Qnli-dev_euclidean_f1": 0.6636636636636637,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.553129196166992,
      "eval_Qnli-dev_euclidean_precision": 0.513953488372093,
      "eval_Qnli-dev_euclidean_recall": 0.9364406779661016,
      "eval_Qnli-dev_manhattan_accuracy": 0.658203125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 216.95904541015625,
      "eval_Qnli-dev_manhattan_ap": 0.6921323777683974,
      "eval_Qnli-dev_manhattan_f1": 0.670807453416149,
      "eval_Qnli-dev_manhattan_f1_threshold": 295.45440673828125,
      "eval_Qnli-dev_manhattan_precision": 0.5294117647058824,
      "eval_Qnli-dev_manhattan_recall": 0.9152542372881356,
      "eval_Qnli-dev_max_accuracy": 0.66015625,
      "eval_Qnli-dev_max_accuracy_threshold": 472.6525573730469,
      "eval_Qnli-dev_max_ap": 0.6928397191777511,
      "eval_Qnli-dev_max_f1": 0.6723259762308998,
      "eval_Qnli-dev_max_f1_threshold": 417.5654602050781,
      "eval_Qnli-dev_max_precision": 0.5609065155807366,
      "eval_Qnli-dev_max_recall": 0.9364406779661016,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.913508415222168,
      "eval_allNLI-dev_cosine_ap": 0.5911741601194938,
      "eval_allNLI-dev_cosine_f1": 0.6125290023201856,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8410093188285828,
      "eval_allNLI-dev_cosine_precision": 0.5116279069767442,
      "eval_allNLI-dev_cosine_recall": 0.7630057803468208,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 539.990478515625,
      "eval_allNLI-dev_dot_ap": 0.48083911646945526,
      "eval_allNLI-dev_dot_f1": 0.5535353535353535,
      "eval_allNLI-dev_dot_f1_threshold": 412.3243408203125,
      "eval_allNLI-dev_dot_precision": 0.4254658385093168,
      "eval_allNLI-dev_dot_recall": 0.791907514450867,
      "eval_allNLI-dev_euclidean_accuracy": 0.720703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.402048110961914,
      "eval_allNLI-dev_euclidean_ap": 0.5934062939780034,
      "eval_allNLI-dev_euclidean_f1": 0.6143790849673202,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.571496963500977,
      "eval_allNLI-dev_euclidean_precision": 0.493006993006993,
      "eval_allNLI-dev_euclidean_recall": 0.815028901734104,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 176.13900756835938,
      "eval_allNLI-dev_manhattan_ap": 0.5924668029161843,
      "eval_allNLI-dev_manhattan_f1": 0.611353711790393,
      "eval_allNLI-dev_manhattan_f1_threshold": 245.57916259765625,
      "eval_allNLI-dev_manhattan_precision": 0.49122807017543857,
      "eval_allNLI-dev_manhattan_recall": 0.8092485549132948,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 539.990478515625,
      "eval_allNLI-dev_max_ap": 0.5934062939780034,
      "eval_allNLI-dev_max_f1": 0.6143790849673202,
      "eval_allNLI-dev_max_f1_threshold": 412.3243408203125,
      "eval_allNLI-dev_max_precision": 0.5116279069767442,
      "eval_allNLI-dev_max_recall": 0.815028901734104,
      "eval_sequential_score": 0.6928397191777511,
      "eval_sts-test_pearson_cosine": 0.819462683188855,
      "eval_sts-test_pearson_dot": 0.7482268675684371,
      "eval_sts-test_pearson_euclidean": 0.841975338798404,
      "eval_sts-test_pearson_manhattan": 0.8394824776397919,
      "eval_sts-test_pearson_max": 0.841975338798404,
      "eval_sts-test_spearman_cosine": 0.8489902765035784,
      "eval_sts-test_spearman_dot": 0.7450188206389735,
      "eval_sts-test_spearman_euclidean": 0.8375093403936148,
      "eval_sts-test_spearman_manhattan": 0.8368243775867581,
      "eval_sts-test_spearman_max": 0.8489902765035784,
      "eval_vitaminc-pairs_loss": 3.752849817276001,
      "eval_vitaminc-pairs_runtime": 5.4704,
      "eval_vitaminc-pairs_samples_per_second": 23.399,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_negation-triplets_loss": 1.9750179052352905,
      "eval_negation-triplets_runtime": 1.0754,
      "eval_negation-triplets_samples_per_second": 119.022,
      "eval_negation-triplets_steps_per_second": 1.86,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_scitail-pairs-pos_loss": 0.21943919360637665,
      "eval_scitail-pairs-pos_runtime": 1.273,
      "eval_scitail-pairs-pos_samples_per_second": 100.551,
      "eval_scitail-pairs-pos_steps_per_second": 1.571,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_scitail-pairs-qa_loss": 0.035450175404548645,
      "eval_scitail-pairs-qa_runtime": 0.7798,
      "eval_scitail-pairs-qa_samples_per_second": 164.139,
      "eval_scitail-pairs-qa_steps_per_second": 2.565,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_xsum-pairs_loss": 0.5657890439033508,
      "eval_xsum-pairs_runtime": 3.9265,
      "eval_xsum-pairs_samples_per_second": 32.599,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_sciq_pairs_loss": 0.09307930618524551,
      "eval_sciq_pairs_runtime": 5.864,
      "eval_sciq_pairs_samples_per_second": 21.828,
      "eval_sciq_pairs_steps_per_second": 0.341,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_qasc_pairs_loss": 0.6284787654876709,
      "eval_qasc_pairs_runtime": 0.9012,
      "eval_qasc_pairs_samples_per_second": 142.038,
      "eval_qasc_pairs_steps_per_second": 2.219,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_openbookqa_pairs_loss": 1.6339654922485352,
      "eval_openbookqa_pairs_runtime": 0.8546,
      "eval_openbookqa_pairs_samples_per_second": 149.777,
      "eval_openbookqa_pairs_steps_per_second": 2.34,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_msmarco_pairs_loss": 0.7008572220802307,
      "eval_msmarco_pairs_runtime": 1.972,
      "eval_msmarco_pairs_samples_per_second": 64.908,
      "eval_msmarco_pairs_steps_per_second": 1.014,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_nq_pairs_loss": 1.3421883583068848,
      "eval_nq_pairs_runtime": 3.3324,
      "eval_nq_pairs_samples_per_second": 38.411,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_trivia_pairs_loss": 1.2664722204208374,
      "eval_trivia_pairs_runtime": 4.4989,
      "eval_trivia_pairs_samples_per_second": 28.452,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_gooaq_pairs_loss": 1.0903469324111938,
      "eval_gooaq_pairs_runtime": 1.473,
      "eval_gooaq_pairs_samples_per_second": 86.898,
      "eval_gooaq_pairs_steps_per_second": 1.358,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_paws-pos_loss": 0.04687386006116867,
      "eval_paws-pos_runtime": 1.0378,
      "eval_paws-pos_samples_per_second": 123.336,
      "eval_paws-pos_steps_per_second": 1.927,
      "step": 700
    },
    {
      "epoch": 0.5430566330488751,
      "eval_global_dataset_loss": 0.5735803842544556,
      "eval_global_dataset_runtime": 19.4309,
      "eval_global_dataset_samples_per_second": 21.409,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 700
    },
    {
      "epoch": 0.543832428238945,
      "grad_norm": 18.120939254760742,
      "learning_rate": 2.870740305522914e-05,
      "loss": 1.7663,
      "step": 701
    },
    {
      "epoch": 0.5446082234290147,
      "grad_norm": 16.150516510009766,
      "learning_rate": 2.8748531139835482e-05,
      "loss": 1.2925,
      "step": 702
    },
    {
      "epoch": 0.5453840186190846,
      "grad_norm": 7.960175037384033,
      "learning_rate": 2.878965922444183e-05,
      "loss": 0.4823,
      "step": 703
    },
    {
      "epoch": 0.5461598138091543,
      "grad_norm": 10.59144115447998,
      "learning_rate": 2.8830787309048176e-05,
      "loss": 1.0832,
      "step": 704
    },
    {
      "epoch": 0.5469356089992242,
      "grad_norm": 11.555217742919922,
      "learning_rate": 2.8871915393654522e-05,
      "loss": 1.2817,
      "step": 705
    },
    {
      "epoch": 0.547711404189294,
      "grad_norm": 9.403205871582031,
      "learning_rate": 2.8913043478260867e-05,
      "loss": 0.6168,
      "step": 706
    },
    {
      "epoch": 0.5484871993793639,
      "grad_norm": 6.8033647537231445,
      "learning_rate": 2.8954171562867212e-05,
      "loss": 0.2665,
      "step": 707
    },
    {
      "epoch": 0.5492629945694336,
      "grad_norm": 8.434525489807129,
      "learning_rate": 2.8995299647473558e-05,
      "loss": 0.6778,
      "step": 708
    },
    {
      "epoch": 0.5500387897595035,
      "grad_norm": 11.152477264404297,
      "learning_rate": 2.9036427732079903e-05,
      "loss": 1.2399,
      "step": 709
    },
    {
      "epoch": 0.5508145849495734,
      "grad_norm": 13.578471183776855,
      "learning_rate": 2.907755581668625e-05,
      "loss": 1.2126,
      "step": 710
    },
    {
      "epoch": 0.5515903801396431,
      "grad_norm": 15.13119125366211,
      "learning_rate": 2.9118683901292593e-05,
      "loss": 1.3319,
      "step": 711
    },
    {
      "epoch": 0.552366175329713,
      "grad_norm": 9.639263153076172,
      "learning_rate": 2.915981198589894e-05,
      "loss": 0.5835,
      "step": 712
    },
    {
      "epoch": 0.5531419705197828,
      "grad_norm": 14.466522216796875,
      "learning_rate": 2.9200940070505287e-05,
      "loss": 1.188,
      "step": 713
    },
    {
      "epoch": 0.5539177657098526,
      "grad_norm": 10.483856201171875,
      "learning_rate": 2.924206815511163e-05,
      "loss": 0.5465,
      "step": 714
    },
    {
      "epoch": 0.5546935608999224,
      "grad_norm": 19.497995376586914,
      "learning_rate": 2.9283196239717978e-05,
      "loss": 2.9539,
      "step": 715
    },
    {
      "epoch": 0.5554693560899923,
      "grad_norm": 7.568907260894775,
      "learning_rate": 2.932432432432432e-05,
      "loss": 0.477,
      "step": 716
    },
    {
      "epoch": 0.556245151280062,
      "grad_norm": 9.21462345123291,
      "learning_rate": 2.9365452408930665e-05,
      "loss": 0.5837,
      "step": 717
    },
    {
      "epoch": 0.5570209464701319,
      "grad_norm": 13.529400825500488,
      "learning_rate": 2.9406580493537014e-05,
      "loss": 1.3591,
      "step": 718
    },
    {
      "epoch": 0.5577967416602017,
      "grad_norm": 8.857770919799805,
      "learning_rate": 2.9447708578143356e-05,
      "loss": 0.5642,
      "step": 719
    },
    {
      "epoch": 0.5585725368502715,
      "grad_norm": 8.515542984008789,
      "learning_rate": 2.9488836662749704e-05,
      "loss": 0.5866,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_Qnli-dev_cosine_accuracy": 0.673828125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8940407037734985,
      "eval_Qnli-dev_cosine_ap": 0.7205450298424871,
      "eval_Qnli-dev_cosine_f1": 0.6752827140549272,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7951650619506836,
      "eval_Qnli-dev_cosine_precision": 0.5456919060052219,
      "eval_Qnli-dev_cosine_recall": 0.885593220338983,
      "eval_Qnli-dev_dot_accuracy": 0.640625,
      "eval_Qnli-dev_dot_accuracy_threshold": 453.888427734375,
      "eval_Qnli-dev_dot_ap": 0.6214011405733493,
      "eval_Qnli-dev_dot_f1": 0.6637554585152838,
      "eval_Qnli-dev_dot_f1_threshold": 385.6955261230469,
      "eval_Qnli-dev_dot_precision": 0.5055432372505543,
      "eval_Qnli-dev_dot_recall": 0.9661016949152542,
      "eval_Qnli-dev_euclidean_accuracy": 0.666015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.616241455078125,
      "eval_Qnli-dev_euclidean_ap": 0.7139937882040119,
      "eval_Qnli-dev_euclidean_f1": 0.6765676567656767,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.782005310058594,
      "eval_Qnli-dev_euclidean_precision": 0.5540540540540541,
      "eval_Qnli-dev_euclidean_recall": 0.8686440677966102,
      "eval_Qnli-dev_manhattan_accuracy": 0.6640625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 199.71429443359375,
      "eval_Qnli-dev_manhattan_ap": 0.7147017217346366,
      "eval_Qnli-dev_manhattan_f1": 0.6812080536912752,
      "eval_Qnli-dev_manhattan_f1_threshold": 259.9438781738281,
      "eval_Qnli-dev_manhattan_precision": 0.5638888888888889,
      "eval_Qnli-dev_manhattan_recall": 0.8601694915254238,
      "eval_Qnli-dev_max_accuracy": 0.673828125,
      "eval_Qnli-dev_max_accuracy_threshold": 453.888427734375,
      "eval_Qnli-dev_max_ap": 0.7205450298424871,
      "eval_Qnli-dev_max_f1": 0.6812080536912752,
      "eval_Qnli-dev_max_f1_threshold": 385.6955261230469,
      "eval_Qnli-dev_max_precision": 0.5638888888888889,
      "eval_Qnli-dev_max_recall": 0.9661016949152542,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8952102065086365,
      "eval_allNLI-dev_cosine_ap": 0.5866191424984795,
      "eval_allNLI-dev_cosine_f1": 0.6153846153846154,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8231034874916077,
      "eval_allNLI-dev_cosine_precision": 0.49645390070921985,
      "eval_allNLI-dev_cosine_recall": 0.8092485549132948,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 433.2393493652344,
      "eval_allNLI-dev_dot_ap": 0.46595992224599025,
      "eval_allNLI-dev_dot_f1": 0.5708661417322834,
      "eval_allNLI-dev_dot_f1_threshold": 373.5594482421875,
      "eval_allNLI-dev_dot_precision": 0.43283582089552236,
      "eval_allNLI-dev_dot_recall": 0.838150289017341,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.566951751708984,
      "eval_allNLI-dev_euclidean_ap": 0.5946647030558465,
      "eval_allNLI-dev_euclidean_f1": 0.6064814814814814,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.611150741577148,
      "eval_allNLI-dev_euclidean_precision": 0.5057915057915058,
      "eval_allNLI-dev_euclidean_recall": 0.7572254335260116,
      "eval_allNLI-dev_manhattan_accuracy": 0.72265625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 188.56045532226562,
      "eval_allNLI-dev_manhattan_ap": 0.5967872765902448,
      "eval_allNLI-dev_manhattan_f1": 0.6235565819861432,
      "eval_allNLI-dev_manhattan_f1_threshold": 227.69821166992188,
      "eval_allNLI-dev_manhattan_precision": 0.5192307692307693,
      "eval_allNLI-dev_manhattan_recall": 0.7803468208092486,
      "eval_allNLI-dev_max_accuracy": 0.72265625,
      "eval_allNLI-dev_max_accuracy_threshold": 433.2393493652344,
      "eval_allNLI-dev_max_ap": 0.5967872765902448,
      "eval_allNLI-dev_max_f1": 0.6235565819861432,
      "eval_allNLI-dev_max_f1_threshold": 373.5594482421875,
      "eval_allNLI-dev_max_precision": 0.5192307692307693,
      "eval_allNLI-dev_max_recall": 0.838150289017341,
      "eval_sequential_score": 0.7205450298424871,
      "eval_sts-test_pearson_cosine": 0.8068351179949242,
      "eval_sts-test_pearson_dot": 0.7752161321253326,
      "eval_sts-test_pearson_euclidean": 0.8352793694228442,
      "eval_sts-test_pearson_manhattan": 0.8299592250249215,
      "eval_sts-test_pearson_max": 0.8352793694228442,
      "eval_sts-test_spearman_cosine": 0.8387028117836621,
      "eval_sts-test_spearman_dot": 0.7567988294288159,
      "eval_sts-test_spearman_euclidean": 0.831171219242751,
      "eval_sts-test_spearman_manhattan": 0.8287938979838556,
      "eval_sts-test_spearman_max": 0.8387028117836621,
      "eval_vitaminc-pairs_loss": 3.6469686031341553,
      "eval_vitaminc-pairs_runtime": 5.4931,
      "eval_vitaminc-pairs_samples_per_second": 23.302,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_negation-triplets_loss": 1.8540340662002563,
      "eval_negation-triplets_runtime": 1.0821,
      "eval_negation-triplets_samples_per_second": 118.293,
      "eval_negation-triplets_steps_per_second": 1.848,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_scitail-pairs-pos_loss": 0.21250325441360474,
      "eval_scitail-pairs-pos_runtime": 1.2752,
      "eval_scitail-pairs-pos_samples_per_second": 100.38,
      "eval_scitail-pairs-pos_steps_per_second": 1.568,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_scitail-pairs-qa_loss": 0.05020624026656151,
      "eval_scitail-pairs-qa_runtime": 0.7946,
      "eval_scitail-pairs-qa_samples_per_second": 161.095,
      "eval_scitail-pairs-qa_steps_per_second": 2.517,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_xsum-pairs_loss": 0.5439064502716064,
      "eval_xsum-pairs_runtime": 3.947,
      "eval_xsum-pairs_samples_per_second": 32.43,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_sciq_pairs_loss": 0.07200054079294205,
      "eval_sciq_pairs_runtime": 5.9421,
      "eval_sciq_pairs_samples_per_second": 21.541,
      "eval_sciq_pairs_steps_per_second": 0.337,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_qasc_pairs_loss": 0.6132616996765137,
      "eval_qasc_pairs_runtime": 0.9122,
      "eval_qasc_pairs_samples_per_second": 140.313,
      "eval_qasc_pairs_steps_per_second": 2.192,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_openbookqa_pairs_loss": 1.5304473638534546,
      "eval_openbookqa_pairs_runtime": 0.861,
      "eval_openbookqa_pairs_samples_per_second": 148.663,
      "eval_openbookqa_pairs_steps_per_second": 2.323,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_msmarco_pairs_loss": 0.5928510427474976,
      "eval_msmarco_pairs_runtime": 1.964,
      "eval_msmarco_pairs_samples_per_second": 65.174,
      "eval_msmarco_pairs_steps_per_second": 1.018,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_nq_pairs_loss": 1.1065574884414673,
      "eval_nq_pairs_runtime": 3.3464,
      "eval_nq_pairs_samples_per_second": 38.25,
      "eval_nq_pairs_steps_per_second": 0.598,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_trivia_pairs_loss": 1.134360909461975,
      "eval_trivia_pairs_runtime": 4.483,
      "eval_trivia_pairs_samples_per_second": 28.553,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_gooaq_pairs_loss": 0.9950035810470581,
      "eval_gooaq_pairs_runtime": 1.4614,
      "eval_gooaq_pairs_samples_per_second": 87.585,
      "eval_gooaq_pairs_steps_per_second": 1.369,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_paws-pos_loss": 0.04947199672460556,
      "eval_paws-pos_runtime": 1.037,
      "eval_paws-pos_samples_per_second": 123.428,
      "eval_paws-pos_steps_per_second": 1.929,
      "step": 720
    },
    {
      "epoch": 0.5585725368502715,
      "eval_global_dataset_loss": 0.5364225506782532,
      "eval_global_dataset_runtime": 19.4016,
      "eval_global_dataset_samples_per_second": 21.441,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 720
    },
    {
      "epoch": 0.5593483320403414,
      "grad_norm": 3.8790650367736816,
      "learning_rate": 2.952996474735605e-05,
      "loss": 0.1448,
      "step": 721
    },
    {
      "epoch": 0.5601241272304112,
      "grad_norm": 7.98465633392334,
      "learning_rate": 2.9571092831962395e-05,
      "loss": 0.523,
      "step": 722
    },
    {
      "epoch": 0.560899922420481,
      "grad_norm": 9.091803550720215,
      "learning_rate": 2.961222091656874e-05,
      "loss": 0.6414,
      "step": 723
    },
    {
      "epoch": 0.5616757176105508,
      "grad_norm": 12.962803840637207,
      "learning_rate": 2.9653349001175086e-05,
      "loss": 1.2545,
      "step": 724
    },
    {
      "epoch": 0.5624515128006207,
      "grad_norm": 12.292401313781738,
      "learning_rate": 2.969447708578143e-05,
      "loss": 1.0442,
      "step": 725
    },
    {
      "epoch": 0.5632273079906904,
      "grad_norm": 0.5314335823059082,
      "learning_rate": 2.9735605170387776e-05,
      "loss": 0.0114,
      "step": 726
    },
    {
      "epoch": 0.5640031031807603,
      "grad_norm": 9.92776107788086,
      "learning_rate": 2.9776733254994125e-05,
      "loss": 0.6287,
      "step": 727
    },
    {
      "epoch": 0.5647788983708301,
      "grad_norm": 10.079903602600098,
      "learning_rate": 2.9817861339600467e-05,
      "loss": 0.5608,
      "step": 728
    },
    {
      "epoch": 0.5655546935608999,
      "grad_norm": 8.860121726989746,
      "learning_rate": 2.9858989424206812e-05,
      "loss": 0.3379,
      "step": 729
    },
    {
      "epoch": 0.5663304887509697,
      "grad_norm": 7.067585468292236,
      "learning_rate": 2.9900117508813157e-05,
      "loss": 0.2763,
      "step": 730
    },
    {
      "epoch": 0.5671062839410396,
      "grad_norm": 1.1004122495651245,
      "learning_rate": 2.9941245593419503e-05,
      "loss": 0.025,
      "step": 731
    },
    {
      "epoch": 0.5678820791311094,
      "grad_norm": 16.58653450012207,
      "learning_rate": 2.998237367802585e-05,
      "loss": 1.3182,
      "step": 732
    },
    {
      "epoch": 0.5686578743211792,
      "grad_norm": 9.295772552490234,
      "learning_rate": 3.0023501762632193e-05,
      "loss": 0.5533,
      "step": 733
    },
    {
      "epoch": 0.5694336695112491,
      "grad_norm": 8.6797513961792,
      "learning_rate": 3.0064629847238542e-05,
      "loss": 0.4049,
      "step": 734
    },
    {
      "epoch": 0.5702094647013188,
      "grad_norm": 2.2837955951690674,
      "learning_rate": 3.0105757931844887e-05,
      "loss": 0.0823,
      "step": 735
    },
    {
      "epoch": 0.5709852598913887,
      "grad_norm": 10.1045503616333,
      "learning_rate": 3.014688601645123e-05,
      "loss": 0.4921,
      "step": 736
    },
    {
      "epoch": 0.5717610550814585,
      "grad_norm": 9.599879264831543,
      "learning_rate": 3.0188014101057578e-05,
      "loss": 0.5957,
      "step": 737
    },
    {
      "epoch": 0.5725368502715283,
      "grad_norm": 11.49008846282959,
      "learning_rate": 3.0229142185663923e-05,
      "loss": 0.5823,
      "step": 738
    },
    {
      "epoch": 0.5733126454615981,
      "grad_norm": 8.599343299865723,
      "learning_rate": 3.027027027027027e-05,
      "loss": 0.3722,
      "step": 739
    },
    {
      "epoch": 0.574088440651668,
      "grad_norm": 4.150580406188965,
      "learning_rate": 3.0311398354876614e-05,
      "loss": 0.1084,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_Qnli-dev_cosine_accuracy": 0.68359375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8398900628089905,
      "eval_Qnli-dev_cosine_ap": 0.701964527309015,
      "eval_Qnli-dev_cosine_f1": 0.6749226006191951,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7028575539588928,
      "eval_Qnli-dev_cosine_precision": 0.5317073170731708,
      "eval_Qnli-dev_cosine_recall": 0.923728813559322,
      "eval_Qnli-dev_dot_accuracy": 0.638671875,
      "eval_Qnli-dev_dot_accuracy_threshold": 434.2928161621094,
      "eval_Qnli-dev_dot_ap": 0.6309465491829072,
      "eval_Qnli-dev_dot_f1": 0.656,
      "eval_Qnli-dev_dot_f1_threshold": 362.2476806640625,
      "eval_Qnli-dev_dot_precision": 0.5269922879177378,
      "eval_Qnli-dev_dot_recall": 0.8686440677966102,
      "eval_Qnli-dev_euclidean_accuracy": 0.66796875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.936728477478027,
      "eval_Qnli-dev_euclidean_ap": 0.69981842752052,
      "eval_Qnli-dev_euclidean_f1": 0.6823161189358372,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.49447250366211,
      "eval_Qnli-dev_euclidean_precision": 0.5409429280397022,
      "eval_Qnli-dev_euclidean_recall": 0.923728813559322,
      "eval_Qnli-dev_manhattan_accuracy": 0.67578125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 231.48367309570312,
      "eval_Qnli-dev_manhattan_ap": 0.7003099057246541,
      "eval_Qnli-dev_manhattan_f1": 0.678125,
      "eval_Qnli-dev_manhattan_f1_threshold": 312.58099365234375,
      "eval_Qnli-dev_manhattan_precision": 0.5371287128712872,
      "eval_Qnli-dev_manhattan_recall": 0.9194915254237288,
      "eval_Qnli-dev_max_accuracy": 0.68359375,
      "eval_Qnli-dev_max_accuracy_threshold": 434.2928161621094,
      "eval_Qnli-dev_max_ap": 0.701964527309015,
      "eval_Qnli-dev_max_f1": 0.6823161189358372,
      "eval_Qnli-dev_max_f1_threshold": 362.2476806640625,
      "eval_Qnli-dev_max_precision": 0.5409429280397022,
      "eval_Qnli-dev_max_recall": 0.923728813559322,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8928638696670532,
      "eval_allNLI-dev_cosine_ap": 0.5920124897509392,
      "eval_allNLI-dev_cosine_f1": 0.6055045871559632,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8035704493522644,
      "eval_allNLI-dev_cosine_precision": 0.5019011406844106,
      "eval_allNLI-dev_cosine_recall": 0.7630057803468208,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 454.62860107421875,
      "eval_allNLI-dev_dot_ap": 0.48208355686782006,
      "eval_allNLI-dev_dot_f1": 0.5642105263157895,
      "eval_allNLI-dev_dot_f1_threshold": 359.41827392578125,
      "eval_allNLI-dev_dot_precision": 0.44370860927152317,
      "eval_allNLI-dev_dot_recall": 0.7745664739884393,
      "eval_allNLI-dev_euclidean_accuracy": 0.71875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.954824447631836,
      "eval_allNLI-dev_euclidean_ap": 0.5969360708702632,
      "eval_allNLI-dev_euclidean_f1": 0.6037735849056605,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.44923210144043,
      "eval_allNLI-dev_euclidean_precision": 0.47368421052631576,
      "eval_allNLI-dev_euclidean_recall": 0.8323699421965318,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 180.33102416992188,
      "eval_allNLI-dev_manhattan_ap": 0.599151505651083,
      "eval_allNLI-dev_manhattan_f1": 0.6150341685649203,
      "eval_allNLI-dev_manhattan_f1_threshold": 241.29034423828125,
      "eval_allNLI-dev_manhattan_precision": 0.5075187969924813,
      "eval_allNLI-dev_manhattan_recall": 0.7803468208092486,
      "eval_allNLI-dev_max_accuracy": 0.71875,
      "eval_allNLI-dev_max_accuracy_threshold": 454.62860107421875,
      "eval_allNLI-dev_max_ap": 0.599151505651083,
      "eval_allNLI-dev_max_f1": 0.6150341685649203,
      "eval_allNLI-dev_max_f1_threshold": 359.41827392578125,
      "eval_allNLI-dev_max_precision": 0.5075187969924813,
      "eval_allNLI-dev_max_recall": 0.8323699421965318,
      "eval_sequential_score": 0.701964527309015,
      "eval_sts-test_pearson_cosine": 0.8093560512843387,
      "eval_sts-test_pearson_dot": 0.768511375313704,
      "eval_sts-test_pearson_euclidean": 0.8346196774403323,
      "eval_sts-test_pearson_manhattan": 0.8336336376576433,
      "eval_sts-test_pearson_max": 0.8346196774403323,
      "eval_sts-test_spearman_cosine": 0.839810718761929,
      "eval_sts-test_spearman_dot": 0.749576557606642,
      "eval_sts-test_spearman_euclidean": 0.8316342157931065,
      "eval_sts-test_spearman_manhattan": 0.8329256886873827,
      "eval_sts-test_spearman_max": 0.839810718761929,
      "eval_vitaminc-pairs_loss": 3.8233823776245117,
      "eval_vitaminc-pairs_runtime": 5.4612,
      "eval_vitaminc-pairs_samples_per_second": 23.438,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_negation-triplets_loss": 1.911386251449585,
      "eval_negation-triplets_runtime": 1.077,
      "eval_negation-triplets_samples_per_second": 118.853,
      "eval_negation-triplets_steps_per_second": 1.857,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_scitail-pairs-pos_loss": 0.21341906487941742,
      "eval_scitail-pairs-pos_runtime": 1.2851,
      "eval_scitail-pairs-pos_samples_per_second": 99.603,
      "eval_scitail-pairs-pos_steps_per_second": 1.556,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_scitail-pairs-qa_loss": 0.029989801347255707,
      "eval_scitail-pairs-qa_runtime": 0.7968,
      "eval_scitail-pairs-qa_samples_per_second": 160.649,
      "eval_scitail-pairs-qa_steps_per_second": 2.51,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_xsum-pairs_loss": 0.5320242047309875,
      "eval_xsum-pairs_runtime": 3.9398,
      "eval_xsum-pairs_samples_per_second": 32.489,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_sciq_pairs_loss": 0.07748549431562424,
      "eval_sciq_pairs_runtime": 6.0588,
      "eval_sciq_pairs_samples_per_second": 21.126,
      "eval_sciq_pairs_steps_per_second": 0.33,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_qasc_pairs_loss": 0.5939160585403442,
      "eval_qasc_pairs_runtime": 0.9469,
      "eval_qasc_pairs_samples_per_second": 135.174,
      "eval_qasc_pairs_steps_per_second": 2.112,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_openbookqa_pairs_loss": 1.5577739477157593,
      "eval_openbookqa_pairs_runtime": 0.8725,
      "eval_openbookqa_pairs_samples_per_second": 146.701,
      "eval_openbookqa_pairs_steps_per_second": 2.292,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_msmarco_pairs_loss": 0.6275253891944885,
      "eval_msmarco_pairs_runtime": 1.9731,
      "eval_msmarco_pairs_samples_per_second": 64.874,
      "eval_msmarco_pairs_steps_per_second": 1.014,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_nq_pairs_loss": 1.280505657196045,
      "eval_nq_pairs_runtime": 3.3422,
      "eval_nq_pairs_samples_per_second": 38.298,
      "eval_nq_pairs_steps_per_second": 0.598,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_trivia_pairs_loss": 1.201932668685913,
      "eval_trivia_pairs_runtime": 4.4914,
      "eval_trivia_pairs_samples_per_second": 28.499,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_gooaq_pairs_loss": 1.1815366744995117,
      "eval_gooaq_pairs_runtime": 1.474,
      "eval_gooaq_pairs_samples_per_second": 86.838,
      "eval_gooaq_pairs_steps_per_second": 1.357,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_paws-pos_loss": 0.04437920078635216,
      "eval_paws-pos_runtime": 1.0358,
      "eval_paws-pos_samples_per_second": 123.576,
      "eval_paws-pos_steps_per_second": 1.931,
      "step": 740
    },
    {
      "epoch": 0.574088440651668,
      "eval_global_dataset_loss": 0.5344300270080566,
      "eval_global_dataset_runtime": 19.3994,
      "eval_global_dataset_samples_per_second": 21.444,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 740
    },
    {
      "epoch": 0.5748642358417377,
      "grad_norm": 9.253707885742188,
      "learning_rate": 3.0352526439482956e-05,
      "loss": 0.528,
      "step": 741
    },
    {
      "epoch": 0.5756400310318076,
      "grad_norm": 5.505712509155273,
      "learning_rate": 3.0393654524089304e-05,
      "loss": 0.1757,
      "step": 742
    },
    {
      "epoch": 0.5764158262218774,
      "grad_norm": 9.570694923400879,
      "learning_rate": 3.043478260869565e-05,
      "loss": 0.5703,
      "step": 743
    },
    {
      "epoch": 0.5771916214119472,
      "grad_norm": 12.39792537689209,
      "learning_rate": 3.0475910693301995e-05,
      "loss": 1.2171,
      "step": 744
    },
    {
      "epoch": 0.5779674166020171,
      "grad_norm": 14.58137321472168,
      "learning_rate": 3.051703877790834e-05,
      "loss": 1.1231,
      "step": 745
    },
    {
      "epoch": 0.5787432117920869,
      "grad_norm": 7.944159507751465,
      "learning_rate": 3.0558166862514685e-05,
      "loss": 0.3165,
      "step": 746
    },
    {
      "epoch": 0.5795190069821567,
      "grad_norm": 12.121591567993164,
      "learning_rate": 3.059929494712103e-05,
      "loss": 0.6469,
      "step": 747
    },
    {
      "epoch": 0.5802948021722265,
      "grad_norm": 18.77005958557129,
      "learning_rate": 3.0640423031727376e-05,
      "loss": 2.3595,
      "step": 748
    },
    {
      "epoch": 0.5810705973622964,
      "grad_norm": 12.629343032836914,
      "learning_rate": 3.068155111633372e-05,
      "loss": 1.1556,
      "step": 749
    },
    {
      "epoch": 0.5818463925523661,
      "grad_norm": 8.255861282348633,
      "learning_rate": 3.0722679200940067e-05,
      "loss": 0.3653,
      "step": 750
    },
    {
      "epoch": 0.582622187742436,
      "grad_norm": 7.568626880645752,
      "learning_rate": 3.076380728554641e-05,
      "loss": 0.3635,
      "step": 751
    },
    {
      "epoch": 0.5833979829325058,
      "grad_norm": 8.831418991088867,
      "learning_rate": 3.080493537015276e-05,
      "loss": 0.4417,
      "step": 752
    },
    {
      "epoch": 0.5841737781225756,
      "grad_norm": 13.779094696044922,
      "learning_rate": 3.08460634547591e-05,
      "loss": 1.3804,
      "step": 753
    },
    {
      "epoch": 0.5849495733126454,
      "grad_norm": 15.98426342010498,
      "learning_rate": 3.088719153936545e-05,
      "loss": 1.7223,
      "step": 754
    },
    {
      "epoch": 0.5857253685027153,
      "grad_norm": 9.531943321228027,
      "learning_rate": 3.092831962397179e-05,
      "loss": 0.4985,
      "step": 755
    },
    {
      "epoch": 0.5865011636927852,
      "grad_norm": 12.930288314819336,
      "learning_rate": 3.0969447708578145e-05,
      "loss": 1.1737,
      "step": 756
    },
    {
      "epoch": 0.5872769588828549,
      "grad_norm": 10.649758338928223,
      "learning_rate": 3.1010575793184484e-05,
      "loss": 0.7157,
      "step": 757
    },
    {
      "epoch": 0.5880527540729248,
      "grad_norm": 10.084814071655273,
      "learning_rate": 3.105170387779083e-05,
      "loss": 0.7424,
      "step": 758
    },
    {
      "epoch": 0.5888285492629945,
      "grad_norm": 16.65734100341797,
      "learning_rate": 3.109283196239718e-05,
      "loss": 1.4451,
      "step": 759
    },
    {
      "epoch": 0.5896043444530644,
      "grad_norm": 9.285470008850098,
      "learning_rate": 3.113396004700352e-05,
      "loss": 0.6282,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_Qnli-dev_cosine_accuracy": 0.68359375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.877650797367096,
      "eval_Qnli-dev_cosine_ap": 0.7098472636033686,
      "eval_Qnli-dev_cosine_f1": 0.683464566929134,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7754403352737427,
      "eval_Qnli-dev_cosine_precision": 0.543859649122807,
      "eval_Qnli-dev_cosine_recall": 0.9194915254237288,
      "eval_Qnli-dev_dot_accuracy": 0.62890625,
      "eval_Qnli-dev_dot_accuracy_threshold": 501.2518310546875,
      "eval_Qnli-dev_dot_ap": 0.6071012588934351,
      "eval_Qnli-dev_dot_f1": 0.6666666666666667,
      "eval_Qnli-dev_dot_f1_threshold": 413.00408935546875,
      "eval_Qnli-dev_dot_precision": 0.5228915662650603,
      "eval_Qnli-dev_dot_recall": 0.9194915254237288,
      "eval_Qnli-dev_euclidean_accuracy": 0.68359375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.836280822753906,
      "eval_Qnli-dev_euclidean_ap": 0.7140022543305473,
      "eval_Qnli-dev_euclidean_f1": 0.688888888888889,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.903035163879395,
      "eval_Qnli-dev_euclidean_precision": 0.550761421319797,
      "eval_Qnli-dev_euclidean_recall": 0.9194915254237288,
      "eval_Qnli-dev_manhattan_accuracy": 0.68359375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 206.20899963378906,
      "eval_Qnli-dev_manhattan_ap": 0.7106636159518751,
      "eval_Qnli-dev_manhattan_f1": 0.6893353941267387,
      "eval_Qnli-dev_manhattan_f1_threshold": 290.93365478515625,
      "eval_Qnli-dev_manhattan_precision": 0.5425790754257908,
      "eval_Qnli-dev_manhattan_recall": 0.9449152542372882,
      "eval_Qnli-dev_max_accuracy": 0.68359375,
      "eval_Qnli-dev_max_accuracy_threshold": 501.2518310546875,
      "eval_Qnli-dev_max_ap": 0.7140022543305473,
      "eval_Qnli-dev_max_f1": 0.6893353941267387,
      "eval_Qnli-dev_max_f1_threshold": 413.00408935546875,
      "eval_Qnli-dev_max_precision": 0.550761421319797,
      "eval_Qnli-dev_max_recall": 0.9449152542372882,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8954986333847046,
      "eval_allNLI-dev_cosine_ap": 0.5995921924506478,
      "eval_allNLI-dev_cosine_f1": 0.620985010706638,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8494750261306763,
      "eval_allNLI-dev_cosine_precision": 0.4931972789115646,
      "eval_allNLI-dev_cosine_recall": 0.838150289017341,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 490.69891357421875,
      "eval_allNLI-dev_dot_ap": 0.471534213810263,
      "eval_allNLI-dev_dot_f1": 0.5616161616161616,
      "eval_allNLI-dev_dot_f1_threshold": 422.97576904296875,
      "eval_allNLI-dev_dot_precision": 0.43167701863354035,
      "eval_allNLI-dev_dot_recall": 0.8034682080924855,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.38502025604248,
      "eval_allNLI-dev_euclidean_ap": 0.6013805829707015,
      "eval_allNLI-dev_euclidean_f1": 0.6225165562913907,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.259134292602539,
      "eval_allNLI-dev_euclidean_precision": 0.5035714285714286,
      "eval_allNLI-dev_euclidean_recall": 0.815028901734104,
      "eval_allNLI-dev_manhattan_accuracy": 0.7265625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 190.51132202148438,
      "eval_allNLI-dev_manhattan_ap": 0.6036438362676858,
      "eval_allNLI-dev_manhattan_f1": 0.6363636363636364,
      "eval_allNLI-dev_manhattan_f1_threshold": 223.367431640625,
      "eval_allNLI-dev_manhattan_precision": 0.5086505190311419,
      "eval_allNLI-dev_manhattan_recall": 0.8497109826589595,
      "eval_allNLI-dev_max_accuracy": 0.7265625,
      "eval_allNLI-dev_max_accuracy_threshold": 490.69891357421875,
      "eval_allNLI-dev_max_ap": 0.6036438362676858,
      "eval_allNLI-dev_max_f1": 0.6363636363636364,
      "eval_allNLI-dev_max_f1_threshold": 422.97576904296875,
      "eval_allNLI-dev_max_precision": 0.5086505190311419,
      "eval_allNLI-dev_max_recall": 0.8497109826589595,
      "eval_sequential_score": 0.7140022543305473,
      "eval_sts-test_pearson_cosine": 0.804745942535201,
      "eval_sts-test_pearson_dot": 0.7443646352401735,
      "eval_sts-test_pearson_euclidean": 0.8272401719809497,
      "eval_sts-test_pearson_manhattan": 0.8265389172613282,
      "eval_sts-test_pearson_max": 0.8272401719809497,
      "eval_sts-test_spearman_cosine": 0.8358944463750448,
      "eval_sts-test_spearman_dot": 0.7358845959251136,
      "eval_sts-test_spearman_euclidean": 0.8254604660253332,
      "eval_sts-test_spearman_manhattan": 0.8263797911880966,
      "eval_sts-test_spearman_max": 0.8358944463750448,
      "eval_vitaminc-pairs_loss": 3.7820026874542236,
      "eval_vitaminc-pairs_runtime": 5.4667,
      "eval_vitaminc-pairs_samples_per_second": 23.414,
      "eval_vitaminc-pairs_steps_per_second": 0.366,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_negation-triplets_loss": 1.847720742225647,
      "eval_negation-triplets_runtime": 1.073,
      "eval_negation-triplets_samples_per_second": 119.29,
      "eval_negation-triplets_steps_per_second": 1.864,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_scitail-pairs-pos_loss": 0.2132282555103302,
      "eval_scitail-pairs-pos_runtime": 1.3257,
      "eval_scitail-pairs-pos_samples_per_second": 96.555,
      "eval_scitail-pairs-pos_steps_per_second": 1.509,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_scitail-pairs-qa_loss": 0.037515174597501755,
      "eval_scitail-pairs-qa_runtime": 0.7803,
      "eval_scitail-pairs-qa_samples_per_second": 164.041,
      "eval_scitail-pairs-qa_steps_per_second": 2.563,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_xsum-pairs_loss": 0.5676081776618958,
      "eval_xsum-pairs_runtime": 3.9279,
      "eval_xsum-pairs_samples_per_second": 32.588,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_sciq_pairs_loss": 0.07753700762987137,
      "eval_sciq_pairs_runtime": 5.9445,
      "eval_sciq_pairs_samples_per_second": 21.532,
      "eval_sciq_pairs_steps_per_second": 0.336,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_qasc_pairs_loss": 0.639065146446228,
      "eval_qasc_pairs_runtime": 0.9162,
      "eval_qasc_pairs_samples_per_second": 139.71,
      "eval_qasc_pairs_steps_per_second": 2.183,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_openbookqa_pairs_loss": 1.440195918083191,
      "eval_openbookqa_pairs_runtime": 0.8723,
      "eval_openbookqa_pairs_samples_per_second": 146.732,
      "eval_openbookqa_pairs_steps_per_second": 2.293,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_msmarco_pairs_loss": 0.6456062197685242,
      "eval_msmarco_pairs_runtime": 1.9747,
      "eval_msmarco_pairs_samples_per_second": 64.82,
      "eval_msmarco_pairs_steps_per_second": 1.013,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_nq_pairs_loss": 1.2071092128753662,
      "eval_nq_pairs_runtime": 3.3352,
      "eval_nq_pairs_samples_per_second": 38.379,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_trivia_pairs_loss": 1.0429044961929321,
      "eval_trivia_pairs_runtime": 4.487,
      "eval_trivia_pairs_samples_per_second": 28.527,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_gooaq_pairs_loss": 1.0560115575790405,
      "eval_gooaq_pairs_runtime": 1.4648,
      "eval_gooaq_pairs_samples_per_second": 87.384,
      "eval_gooaq_pairs_steps_per_second": 1.365,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_paws-pos_loss": 0.0502048097550869,
      "eval_paws-pos_runtime": 1.0248,
      "eval_paws-pos_samples_per_second": 124.903,
      "eval_paws-pos_steps_per_second": 1.952,
      "step": 760
    },
    {
      "epoch": 0.5896043444530644,
      "eval_global_dataset_loss": 0.5463089942932129,
      "eval_global_dataset_runtime": 19.3988,
      "eval_global_dataset_samples_per_second": 21.445,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 760
    },
    {
      "epoch": 0.5903801396431342,
      "grad_norm": 12.11174201965332,
      "learning_rate": 3.117508813160987e-05,
      "loss": 1.3516,
      "step": 761
    },
    {
      "epoch": 0.591155934833204,
      "grad_norm": 6.552314281463623,
      "learning_rate": 3.121621621621621e-05,
      "loss": 0.3012,
      "step": 762
    },
    {
      "epoch": 0.5919317300232738,
      "grad_norm": 10.677921295166016,
      "learning_rate": 3.1257344300822555e-05,
      "loss": 1.1564,
      "step": 763
    },
    {
      "epoch": 0.5927075252133437,
      "grad_norm": 6.8679585456848145,
      "learning_rate": 3.129847238542891e-05,
      "loss": 0.565,
      "step": 764
    },
    {
      "epoch": 0.5934833204034135,
      "grad_norm": 9.756589889526367,
      "learning_rate": 3.1339600470035246e-05,
      "loss": 0.6086,
      "step": 765
    },
    {
      "epoch": 0.5942591155934833,
      "grad_norm": 7.003457069396973,
      "learning_rate": 3.13807285546416e-05,
      "loss": 0.4313,
      "step": 766
    },
    {
      "epoch": 0.5950349107835532,
      "grad_norm": 7.544405460357666,
      "learning_rate": 3.142185663924794e-05,
      "loss": 0.7129,
      "step": 767
    },
    {
      "epoch": 0.595810705973623,
      "grad_norm": 6.581875801086426,
      "learning_rate": 3.146298472385429e-05,
      "loss": 0.282,
      "step": 768
    },
    {
      "epoch": 0.5965865011636928,
      "grad_norm": 6.3391313552856445,
      "learning_rate": 3.1504112808460634e-05,
      "loss": 0.2914,
      "step": 769
    },
    {
      "epoch": 0.5973622963537626,
      "grad_norm": 14.847792625427246,
      "learning_rate": 3.154524089306698e-05,
      "loss": 1.248,
      "step": 770
    },
    {
      "epoch": 0.5981380915438325,
      "grad_norm": 7.190470218658447,
      "learning_rate": 3.1586368977673324e-05,
      "loss": 0.3477,
      "step": 771
    },
    {
      "epoch": 0.5989138867339022,
      "grad_norm": 11.779085159301758,
      "learning_rate": 3.162749706227967e-05,
      "loss": 1.3427,
      "step": 772
    },
    {
      "epoch": 0.5996896819239721,
      "grad_norm": 15.973305702209473,
      "learning_rate": 3.1668625146886015e-05,
      "loss": 1.5705,
      "step": 773
    },
    {
      "epoch": 0.6004654771140419,
      "grad_norm": 3.4099512100219727,
      "learning_rate": 3.170975323149236e-05,
      "loss": 0.1141,
      "step": 774
    },
    {
      "epoch": 0.6012412723041117,
      "grad_norm": 0.6680812239646912,
      "learning_rate": 3.1750881316098706e-05,
      "loss": 0.0123,
      "step": 775
    },
    {
      "epoch": 0.6020170674941815,
      "grad_norm": 6.4536051750183105,
      "learning_rate": 3.179200940070505e-05,
      "loss": 0.3727,
      "step": 776
    },
    {
      "epoch": 0.6027928626842514,
      "grad_norm": 8.789738655090332,
      "learning_rate": 3.1833137485311396e-05,
      "loss": 0.5106,
      "step": 777
    },
    {
      "epoch": 0.6035686578743211,
      "grad_norm": 16.27378273010254,
      "learning_rate": 3.187426556991774e-05,
      "loss": 1.3653,
      "step": 778
    },
    {
      "epoch": 0.604344453064391,
      "grad_norm": 13.552659034729004,
      "learning_rate": 3.191539365452409e-05,
      "loss": 1.0364,
      "step": 779
    },
    {
      "epoch": 0.6051202482544609,
      "grad_norm": 8.921616554260254,
      "learning_rate": 3.195652173913043e-05,
      "loss": 0.4358,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_Qnli-dev_cosine_accuracy": 0.6796875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8365581035614014,
      "eval_Qnli-dev_cosine_ap": 0.7109091471356163,
      "eval_Qnli-dev_cosine_f1": 0.6774716369529984,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7240636944770813,
      "eval_Qnli-dev_cosine_precision": 0.5485564304461942,
      "eval_Qnli-dev_cosine_recall": 0.885593220338983,
      "eval_Qnli-dev_dot_accuracy": 0.6484375,
      "eval_Qnli-dev_dot_accuracy_threshold": 440.2427673339844,
      "eval_Qnli-dev_dot_ap": 0.6363237135922722,
      "eval_Qnli-dev_dot_f1": 0.6584615384615385,
      "eval_Qnli-dev_dot_f1_threshold": 337.6985778808594,
      "eval_Qnli-dev_dot_precision": 0.5169082125603864,
      "eval_Qnli-dev_dot_recall": 0.9067796610169492,
      "eval_Qnli-dev_euclidean_accuracy": 0.66796875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.771133422851562,
      "eval_Qnli-dev_euclidean_ap": 0.7028785095868835,
      "eval_Qnli-dev_euclidean_f1": 0.6877076411960132,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.495817184448242,
      "eval_Qnli-dev_euclidean_precision": 0.5655737704918032,
      "eval_Qnli-dev_euclidean_recall": 0.8771186440677966,
      "eval_Qnli-dev_manhattan_accuracy": 0.681640625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 230.85598754882812,
      "eval_Qnli-dev_manhattan_ap": 0.6980767172326623,
      "eval_Qnli-dev_manhattan_f1": 0.6842105263157895,
      "eval_Qnli-dev_manhattan_f1_threshold": 296.935791015625,
      "eval_Qnli-dev_manhattan_precision": 0.5591397849462365,
      "eval_Qnli-dev_manhattan_recall": 0.8813559322033898,
      "eval_Qnli-dev_max_accuracy": 0.681640625,
      "eval_Qnli-dev_max_accuracy_threshold": 440.2427673339844,
      "eval_Qnli-dev_max_ap": 0.7109091471356163,
      "eval_Qnli-dev_max_f1": 0.6877076411960132,
      "eval_Qnli-dev_max_f1_threshold": 337.6985778808594,
      "eval_Qnli-dev_max_precision": 0.5655737704918032,
      "eval_Qnli-dev_max_recall": 0.9067796610169492,
      "eval_allNLI-dev_cosine_accuracy": 0.724609375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9060673117637634,
      "eval_allNLI-dev_cosine_ap": 0.5995291187250216,
      "eval_allNLI-dev_cosine_f1": 0.6070588235294118,
      "eval_allNLI-dev_cosine_f1_threshold": 0.828079342842102,
      "eval_allNLI-dev_cosine_precision": 0.5119047619047619,
      "eval_allNLI-dev_cosine_recall": 0.7456647398843931,
      "eval_allNLI-dev_dot_accuracy": 0.669921875,
      "eval_allNLI-dev_dot_accuracy_threshold": 486.9648742675781,
      "eval_allNLI-dev_dot_ap": 0.46196588529743243,
      "eval_allNLI-dev_dot_f1": 0.553415061295972,
      "eval_allNLI-dev_dot_f1_threshold": 324.0147705078125,
      "eval_allNLI-dev_dot_precision": 0.3969849246231156,
      "eval_allNLI-dev_dot_recall": 0.9132947976878613,
      "eval_allNLI-dev_euclidean_accuracy": 0.728515625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.159957885742188,
      "eval_allNLI-dev_euclidean_ap": 0.6074464508937693,
      "eval_allNLI-dev_euclidean_f1": 0.615071283095723,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.04478931427002,
      "eval_allNLI-dev_euclidean_precision": 0.4748427672955975,
      "eval_allNLI-dev_euclidean_recall": 0.8728323699421965,
      "eval_allNLI-dev_manhattan_accuracy": 0.73046875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 196.75416564941406,
      "eval_allNLI-dev_manhattan_ap": 0.6073745409600696,
      "eval_allNLI-dev_manhattan_f1": 0.6157205240174674,
      "eval_allNLI-dev_manhattan_f1_threshold": 240.8726806640625,
      "eval_allNLI-dev_manhattan_precision": 0.49473684210526314,
      "eval_allNLI-dev_manhattan_recall": 0.815028901734104,
      "eval_allNLI-dev_max_accuracy": 0.73046875,
      "eval_allNLI-dev_max_accuracy_threshold": 486.9648742675781,
      "eval_allNLI-dev_max_ap": 0.6074464508937693,
      "eval_allNLI-dev_max_f1": 0.6157205240174674,
      "eval_allNLI-dev_max_f1_threshold": 324.0147705078125,
      "eval_allNLI-dev_max_precision": 0.5119047619047619,
      "eval_allNLI-dev_max_recall": 0.9132947976878613,
      "eval_sequential_score": 0.7109091471356163,
      "eval_sts-test_pearson_cosine": 0.8102869734375284,
      "eval_sts-test_pearson_dot": 0.7802602634945165,
      "eval_sts-test_pearson_euclidean": 0.8366414194881395,
      "eval_sts-test_pearson_manhattan": 0.8360601319983859,
      "eval_sts-test_pearson_max": 0.8366414194881395,
      "eval_sts-test_spearman_cosine": 0.8431522059475021,
      "eval_sts-test_spearman_dot": 0.7624533303106646,
      "eval_sts-test_spearman_euclidean": 0.8333223676265742,
      "eval_sts-test_spearman_manhattan": 0.8343712476910657,
      "eval_sts-test_spearman_max": 0.8431522059475021,
      "eval_vitaminc-pairs_loss": 4.127828598022461,
      "eval_vitaminc-pairs_runtime": 5.5473,
      "eval_vitaminc-pairs_samples_per_second": 23.074,
      "eval_vitaminc-pairs_steps_per_second": 0.361,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_negation-triplets_loss": 1.8213467597961426,
      "eval_negation-triplets_runtime": 1.1124,
      "eval_negation-triplets_samples_per_second": 115.07,
      "eval_negation-triplets_steps_per_second": 1.798,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_scitail-pairs-pos_loss": 0.2154824137687683,
      "eval_scitail-pairs-pos_runtime": 1.372,
      "eval_scitail-pairs-pos_samples_per_second": 93.295,
      "eval_scitail-pairs-pos_steps_per_second": 1.458,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_scitail-pairs-qa_loss": 0.022496070712804794,
      "eval_scitail-pairs-qa_runtime": 0.8115,
      "eval_scitail-pairs-qa_samples_per_second": 157.73,
      "eval_scitail-pairs-qa_steps_per_second": 2.465,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_xsum-pairs_loss": 0.45196831226348877,
      "eval_xsum-pairs_runtime": 3.9421,
      "eval_xsum-pairs_samples_per_second": 32.47,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_sciq_pairs_loss": 0.08607526868581772,
      "eval_sciq_pairs_runtime": 6.1291,
      "eval_sciq_pairs_samples_per_second": 20.884,
      "eval_sciq_pairs_steps_per_second": 0.326,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_qasc_pairs_loss": 0.6608518958091736,
      "eval_qasc_pairs_runtime": 0.9304,
      "eval_qasc_pairs_samples_per_second": 137.573,
      "eval_qasc_pairs_steps_per_second": 2.15,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_openbookqa_pairs_loss": 1.5025335550308228,
      "eval_openbookqa_pairs_runtime": 0.8706,
      "eval_openbookqa_pairs_samples_per_second": 147.029,
      "eval_openbookqa_pairs_steps_per_second": 2.297,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_msmarco_pairs_loss": 0.6596011519432068,
      "eval_msmarco_pairs_runtime": 1.9904,
      "eval_msmarco_pairs_samples_per_second": 64.309,
      "eval_msmarco_pairs_steps_per_second": 1.005,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_nq_pairs_loss": 1.3736824989318848,
      "eval_nq_pairs_runtime": 3.362,
      "eval_nq_pairs_samples_per_second": 38.073,
      "eval_nq_pairs_steps_per_second": 0.595,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_trivia_pairs_loss": 1.0609238147735596,
      "eval_trivia_pairs_runtime": 4.497,
      "eval_trivia_pairs_samples_per_second": 28.464,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_gooaq_pairs_loss": 1.254521369934082,
      "eval_gooaq_pairs_runtime": 1.4829,
      "eval_gooaq_pairs_samples_per_second": 86.316,
      "eval_gooaq_pairs_steps_per_second": 1.349,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_paws-pos_loss": 0.04701700806617737,
      "eval_paws-pos_runtime": 1.0641,
      "eval_paws-pos_samples_per_second": 120.287,
      "eval_paws-pos_steps_per_second": 1.879,
      "step": 780
    },
    {
      "epoch": 0.6051202482544609,
      "eval_global_dataset_loss": 0.5899882316589355,
      "eval_global_dataset_runtime": 19.4747,
      "eval_global_dataset_samples_per_second": 21.361,
      "eval_global_dataset_steps_per_second": 0.359,
      "step": 780
    },
    {
      "epoch": 0.6058960434445306,
      "grad_norm": 1.117108702659607,
      "learning_rate": 3.199764982373678e-05,
      "loss": 0.0289,
      "step": 781
    },
    {
      "epoch": 0.6066718386346005,
      "grad_norm": 1.0899808406829834,
      "learning_rate": 3.203877790834312e-05,
      "loss": 0.0641,
      "step": 782
    },
    {
      "epoch": 0.6074476338246703,
      "grad_norm": 12.055098533630371,
      "learning_rate": 3.207990599294947e-05,
      "loss": 0.8557,
      "step": 783
    },
    {
      "epoch": 0.6082234290147401,
      "grad_norm": 12.80833911895752,
      "learning_rate": 3.212103407755581e-05,
      "loss": 0.789,
      "step": 784
    },
    {
      "epoch": 0.6089992242048099,
      "grad_norm": 12.154915809631348,
      "learning_rate": 3.216216216216216e-05,
      "loss": 0.5833,
      "step": 785
    },
    {
      "epoch": 0.6097750193948798,
      "grad_norm": 11.571723937988281,
      "learning_rate": 3.2203290246768504e-05,
      "loss": 1.1265,
      "step": 786
    },
    {
      "epoch": 0.6105508145849495,
      "grad_norm": 8.236241340637207,
      "learning_rate": 3.224441833137485e-05,
      "loss": 0.4488,
      "step": 787
    },
    {
      "epoch": 0.6113266097750194,
      "grad_norm": 16.71768569946289,
      "learning_rate": 3.2285546415981194e-05,
      "loss": 1.2828,
      "step": 788
    },
    {
      "epoch": 0.6121024049650892,
      "grad_norm": 2.64467191696167,
      "learning_rate": 3.232667450058754e-05,
      "loss": 0.0953,
      "step": 789
    },
    {
      "epoch": 0.612878200155159,
      "grad_norm": 8.205010414123535,
      "learning_rate": 3.2367802585193885e-05,
      "loss": 0.647,
      "step": 790
    },
    {
      "epoch": 0.6136539953452289,
      "grad_norm": 9.149142265319824,
      "learning_rate": 3.240893066980023e-05,
      "loss": 0.4797,
      "step": 791
    },
    {
      "epoch": 0.6144297905352987,
      "grad_norm": 6.987081527709961,
      "learning_rate": 3.2450058754406575e-05,
      "loss": 0.316,
      "step": 792
    },
    {
      "epoch": 0.6152055857253685,
      "grad_norm": 0.9240909218788147,
      "learning_rate": 3.249118683901292e-05,
      "loss": 0.0332,
      "step": 793
    },
    {
      "epoch": 0.6159813809154383,
      "grad_norm": 10.872102737426758,
      "learning_rate": 3.2532314923619266e-05,
      "loss": 0.7116,
      "step": 794
    },
    {
      "epoch": 0.6167571761055082,
      "grad_norm": 9.33710765838623,
      "learning_rate": 3.257344300822562e-05,
      "loss": 0.6129,
      "step": 795
    },
    {
      "epoch": 0.6175329712955779,
      "grad_norm": 7.869011402130127,
      "learning_rate": 3.2614571092831957e-05,
      "loss": 0.362,
      "step": 796
    },
    {
      "epoch": 0.6183087664856478,
      "grad_norm": 20.241748809814453,
      "learning_rate": 3.26556991774383e-05,
      "loss": 1.9527,
      "step": 797
    },
    {
      "epoch": 0.6190845616757176,
      "grad_norm": 19.427724838256836,
      "learning_rate": 3.2696827262044654e-05,
      "loss": 1.6134,
      "step": 798
    },
    {
      "epoch": 0.6198603568657874,
      "grad_norm": 12.748085975646973,
      "learning_rate": 3.273795534665099e-05,
      "loss": 0.9555,
      "step": 799
    },
    {
      "epoch": 0.6206361520558572,
      "grad_norm": 13.742033004760742,
      "learning_rate": 3.2779083431257345e-05,
      "loss": 0.924,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_Qnli-dev_cosine_accuracy": 0.66796875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.839040219783783,
      "eval_Qnli-dev_cosine_ap": 0.7004889223738922,
      "eval_Qnli-dev_cosine_f1": 0.6677966101694917,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7544183731079102,
      "eval_Qnli-dev_cosine_precision": 0.556497175141243,
      "eval_Qnli-dev_cosine_recall": 0.8347457627118644,
      "eval_Qnli-dev_dot_accuracy": 0.634765625,
      "eval_Qnli-dev_dot_accuracy_threshold": 440.27606201171875,
      "eval_Qnli-dev_dot_ap": 0.6234031145909478,
      "eval_Qnli-dev_dot_f1": 0.6539027982326951,
      "eval_Qnli-dev_dot_f1_threshold": 328.9981689453125,
      "eval_Qnli-dev_dot_precision": 0.5011286681715575,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.669921875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.322534561157227,
      "eval_Qnli-dev_euclidean_ap": 0.6983872470433685,
      "eval_Qnli-dev_euclidean_f1": 0.6765676567656767,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.18321990966797,
      "eval_Qnli-dev_euclidean_precision": 0.5540540540540541,
      "eval_Qnli-dev_euclidean_recall": 0.8686440677966102,
      "eval_Qnli-dev_manhattan_accuracy": 0.6796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 228.90676879882812,
      "eval_Qnli-dev_manhattan_ap": 0.6917529117366472,
      "eval_Qnli-dev_manhattan_f1": 0.6793650793650794,
      "eval_Qnli-dev_manhattan_f1_threshold": 300.86181640625,
      "eval_Qnli-dev_manhattan_precision": 0.5431472081218274,
      "eval_Qnli-dev_manhattan_recall": 0.9067796610169492,
      "eval_Qnli-dev_max_accuracy": 0.6796875,
      "eval_Qnli-dev_max_accuracy_threshold": 440.27606201171875,
      "eval_Qnli-dev_max_ap": 0.7004889223738922,
      "eval_Qnli-dev_max_f1": 0.6793650793650794,
      "eval_Qnli-dev_max_f1_threshold": 328.9981689453125,
      "eval_Qnli-dev_max_precision": 0.556497175141243,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.875653088092804,
      "eval_allNLI-dev_cosine_ap": 0.5807714821661151,
      "eval_allNLI-dev_cosine_f1": 0.5968992248062016,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7751729488372803,
      "eval_allNLI-dev_cosine_precision": 0.4489795918367347,
      "eval_allNLI-dev_cosine_recall": 0.8901734104046243,
      "eval_allNLI-dev_dot_accuracy": 0.671875,
      "eval_allNLI-dev_dot_accuracy_threshold": 454.7177429199219,
      "eval_allNLI-dev_dot_ap": 0.4489635586483933,
      "eval_allNLI-dev_dot_f1": 0.5490196078431373,
      "eval_allNLI-dev_dot_f1_threshold": 362.77105712890625,
      "eval_allNLI-dev_dot_precision": 0.4405594405594406,
      "eval_allNLI-dev_dot_recall": 0.7283236994219653,
      "eval_allNLI-dev_euclidean_accuracy": 0.7109375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.839738845825195,
      "eval_allNLI-dev_euclidean_ap": 0.5890042738121801,
      "eval_allNLI-dev_euclidean_f1": 0.6083333333333334,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.389555931091309,
      "eval_allNLI-dev_euclidean_precision": 0.4755700325732899,
      "eval_allNLI-dev_euclidean_recall": 0.8439306358381503,
      "eval_allNLI-dev_manhattan_accuracy": 0.72265625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 181.52691650390625,
      "eval_allNLI-dev_manhattan_ap": 0.5955122415793616,
      "eval_allNLI-dev_manhattan_f1": 0.6104417670682731,
      "eval_allNLI-dev_manhattan_f1_threshold": 247.3948974609375,
      "eval_allNLI-dev_manhattan_precision": 0.4676923076923077,
      "eval_allNLI-dev_manhattan_recall": 0.8786127167630058,
      "eval_allNLI-dev_max_accuracy": 0.72265625,
      "eval_allNLI-dev_max_accuracy_threshold": 454.7177429199219,
      "eval_allNLI-dev_max_ap": 0.5955122415793616,
      "eval_allNLI-dev_max_f1": 0.6104417670682731,
      "eval_allNLI-dev_max_f1_threshold": 362.77105712890625,
      "eval_allNLI-dev_max_precision": 0.4755700325732899,
      "eval_allNLI-dev_max_recall": 0.8901734104046243,
      "eval_sequential_score": 0.7004889223738922,
      "eval_sts-test_pearson_cosine": 0.8084181537766624,
      "eval_sts-test_pearson_dot": 0.7575919585001736,
      "eval_sts-test_pearson_euclidean": 0.8413080126015533,
      "eval_sts-test_pearson_manhattan": 0.8403622379229991,
      "eval_sts-test_pearson_max": 0.8413080126015533,
      "eval_sts-test_spearman_cosine": 0.8464401706244509,
      "eval_sts-test_spearman_dot": 0.7350349037250751,
      "eval_sts-test_spearman_euclidean": 0.8402877672083613,
      "eval_sts-test_spearman_manhattan": 0.8388123181202868,
      "eval_sts-test_spearman_max": 0.8464401706244509,
      "eval_vitaminc-pairs_loss": 3.7932844161987305,
      "eval_vitaminc-pairs_runtime": 5.5254,
      "eval_vitaminc-pairs_samples_per_second": 23.166,
      "eval_vitaminc-pairs_steps_per_second": 0.362,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_negation-triplets_loss": 1.8624801635742188,
      "eval_negation-triplets_runtime": 1.0838,
      "eval_negation-triplets_samples_per_second": 118.108,
      "eval_negation-triplets_steps_per_second": 1.845,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_scitail-pairs-pos_loss": 0.1760130673646927,
      "eval_scitail-pairs-pos_runtime": 1.2866,
      "eval_scitail-pairs-pos_samples_per_second": 99.49,
      "eval_scitail-pairs-pos_steps_per_second": 1.555,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_scitail-pairs-qa_loss": 0.02360847406089306,
      "eval_scitail-pairs-qa_runtime": 0.7762,
      "eval_scitail-pairs-qa_samples_per_second": 164.903,
      "eval_scitail-pairs-qa_steps_per_second": 2.577,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_xsum-pairs_loss": 0.42321959137916565,
      "eval_xsum-pairs_runtime": 3.9268,
      "eval_xsum-pairs_samples_per_second": 32.597,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_sciq_pairs_loss": 0.0696462094783783,
      "eval_sciq_pairs_runtime": 5.9639,
      "eval_sciq_pairs_samples_per_second": 21.463,
      "eval_sciq_pairs_steps_per_second": 0.335,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_qasc_pairs_loss": 0.5861497521400452,
      "eval_qasc_pairs_runtime": 0.9105,
      "eval_qasc_pairs_samples_per_second": 140.583,
      "eval_qasc_pairs_steps_per_second": 2.197,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_openbookqa_pairs_loss": 1.5731606483459473,
      "eval_openbookqa_pairs_runtime": 0.8645,
      "eval_openbookqa_pairs_samples_per_second": 148.068,
      "eval_openbookqa_pairs_steps_per_second": 2.314,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_msmarco_pairs_loss": 0.6926800012588501,
      "eval_msmarco_pairs_runtime": 1.9805,
      "eval_msmarco_pairs_samples_per_second": 64.63,
      "eval_msmarco_pairs_steps_per_second": 1.01,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_nq_pairs_loss": 1.2808607816696167,
      "eval_nq_pairs_runtime": 3.7309,
      "eval_nq_pairs_samples_per_second": 34.308,
      "eval_nq_pairs_steps_per_second": 0.536,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_trivia_pairs_loss": 1.0128430128097534,
      "eval_trivia_pairs_runtime": 4.5157,
      "eval_trivia_pairs_samples_per_second": 28.345,
      "eval_trivia_pairs_steps_per_second": 0.443,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_gooaq_pairs_loss": 1.2501243352890015,
      "eval_gooaq_pairs_runtime": 1.4597,
      "eval_gooaq_pairs_samples_per_second": 87.692,
      "eval_gooaq_pairs_steps_per_second": 1.37,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_paws-pos_loss": 0.04498037323355675,
      "eval_paws-pos_runtime": 1.0305,
      "eval_paws-pos_samples_per_second": 124.213,
      "eval_paws-pos_steps_per_second": 1.941,
      "step": 800
    },
    {
      "epoch": 0.6206361520558572,
      "eval_global_dataset_loss": 0.537517249584198,
      "eval_global_dataset_runtime": 19.4173,
      "eval_global_dataset_samples_per_second": 21.424,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 800
    },
    {
      "epoch": 0.6214119472459271,
      "grad_norm": 8.825736999511719,
      "learning_rate": 3.282021151586368e-05,
      "loss": 0.4939,
      "step": 801
    },
    {
      "epoch": 0.622187742435997,
      "grad_norm": 1.2253526449203491,
      "learning_rate": 3.2861339600470035e-05,
      "loss": 0.0407,
      "step": 802
    },
    {
      "epoch": 0.6229635376260667,
      "grad_norm": 8.241771697998047,
      "learning_rate": 3.290246768507638e-05,
      "loss": 0.3288,
      "step": 803
    },
    {
      "epoch": 0.6237393328161366,
      "grad_norm": 9.082040786743164,
      "learning_rate": 3.294359576968272e-05,
      "loss": 0.3719,
      "step": 804
    },
    {
      "epoch": 0.6245151280062063,
      "grad_norm": 8.657794952392578,
      "learning_rate": 3.298472385428907e-05,
      "loss": 0.5764,
      "step": 805
    },
    {
      "epoch": 0.6252909231962762,
      "grad_norm": 4.004289150238037,
      "learning_rate": 3.3025851938895416e-05,
      "loss": 0.1127,
      "step": 806
    },
    {
      "epoch": 0.626066718386346,
      "grad_norm": 10.909632682800293,
      "learning_rate": 3.306698002350176e-05,
      "loss": 0.6597,
      "step": 807
    },
    {
      "epoch": 0.6268425135764158,
      "grad_norm": 7.65082311630249,
      "learning_rate": 3.310810810810811e-05,
      "loss": 0.325,
      "step": 808
    },
    {
      "epoch": 0.6276183087664856,
      "grad_norm": 11.932289123535156,
      "learning_rate": 3.314923619271445e-05,
      "loss": 0.7185,
      "step": 809
    },
    {
      "epoch": 0.6283941039565555,
      "grad_norm": 15.933886528015137,
      "learning_rate": 3.31903642773208e-05,
      "loss": 1.4173,
      "step": 810
    },
    {
      "epoch": 0.6291698991466252,
      "grad_norm": 15.840822219848633,
      "learning_rate": 3.323149236192714e-05,
      "loss": 1.3152,
      "step": 811
    },
    {
      "epoch": 0.6299456943366951,
      "grad_norm": 7.007137775421143,
      "learning_rate": 3.327262044653349e-05,
      "loss": 0.3601,
      "step": 812
    },
    {
      "epoch": 0.630721489526765,
      "grad_norm": 9.546051979064941,
      "learning_rate": 3.331374853113983e-05,
      "loss": 0.5431,
      "step": 813
    },
    {
      "epoch": 0.6314972847168348,
      "grad_norm": 1.17055344581604,
      "learning_rate": 3.335487661574618e-05,
      "loss": 0.05,
      "step": 814
    },
    {
      "epoch": 0.6322730799069046,
      "grad_norm": 15.630793571472168,
      "learning_rate": 3.3396004700352524e-05,
      "loss": 1.3792,
      "step": 815
    },
    {
      "epoch": 0.6330488750969744,
      "grad_norm": 10.699373245239258,
      "learning_rate": 3.343713278495887e-05,
      "loss": 0.6219,
      "step": 816
    },
    {
      "epoch": 0.6338246702870443,
      "grad_norm": 15.029419898986816,
      "learning_rate": 3.3478260869565214e-05,
      "loss": 1.4932,
      "step": 817
    },
    {
      "epoch": 0.634600465477114,
      "grad_norm": 8.618091583251953,
      "learning_rate": 3.351938895417156e-05,
      "loss": 0.541,
      "step": 818
    },
    {
      "epoch": 0.6353762606671839,
      "grad_norm": 7.403913497924805,
      "learning_rate": 3.3560517038777905e-05,
      "loss": 0.3624,
      "step": 819
    },
    {
      "epoch": 0.6361520558572537,
      "grad_norm": 7.243978500366211,
      "learning_rate": 3.360164512338425e-05,
      "loss": 0.405,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_Qnli-dev_cosine_accuracy": 0.67578125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8632968664169312,
      "eval_Qnli-dev_cosine_ap": 0.7105096682981787,
      "eval_Qnli-dev_cosine_f1": 0.682615629984051,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7685413360595703,
      "eval_Qnli-dev_cosine_precision": 0.5473145780051151,
      "eval_Qnli-dev_cosine_recall": 0.9067796610169492,
      "eval_Qnli-dev_dot_accuracy": 0.65234375,
      "eval_Qnli-dev_dot_accuracy_threshold": 469.4715576171875,
      "eval_Qnli-dev_dot_ap": 0.6164343060349063,
      "eval_Qnli-dev_dot_f1": 0.6666666666666667,
      "eval_Qnli-dev_dot_f1_threshold": 392.5911865234375,
      "eval_Qnli-dev_dot_precision": 0.5256723716381418,
      "eval_Qnli-dev_dot_recall": 0.9110169491525424,
      "eval_Qnli-dev_euclidean_accuracy": 0.669921875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.602500915527344,
      "eval_Qnli-dev_euclidean_ap": 0.7000730595374474,
      "eval_Qnli-dev_euclidean_f1": 0.6793650793650794,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.257261276245117,
      "eval_Qnli-dev_euclidean_precision": 0.5431472081218274,
      "eval_Qnli-dev_euclidean_recall": 0.9067796610169492,
      "eval_Qnli-dev_manhattan_accuracy": 0.6796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 214.744140625,
      "eval_Qnli-dev_manhattan_ap": 0.6940773028961578,
      "eval_Qnli-dev_manhattan_f1": 0.6864686468646866,
      "eval_Qnli-dev_manhattan_f1_threshold": 277.89483642578125,
      "eval_Qnli-dev_manhattan_precision": 0.5621621621621622,
      "eval_Qnli-dev_manhattan_recall": 0.8813559322033898,
      "eval_Qnli-dev_max_accuracy": 0.6796875,
      "eval_Qnli-dev_max_accuracy_threshold": 469.4715576171875,
      "eval_Qnli-dev_max_ap": 0.7105096682981787,
      "eval_Qnli-dev_max_f1": 0.6864686468646866,
      "eval_Qnli-dev_max_f1_threshold": 392.5911865234375,
      "eval_Qnli-dev_max_precision": 0.5621621621621622,
      "eval_Qnli-dev_max_recall": 0.9110169491525424,
      "eval_allNLI-dev_cosine_accuracy": 0.7109375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9248532056808472,
      "eval_allNLI-dev_cosine_ap": 0.5891613439882775,
      "eval_allNLI-dev_cosine_f1": 0.5904255319148936,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8689008951187134,
      "eval_allNLI-dev_cosine_precision": 0.5467980295566502,
      "eval_allNLI-dev_cosine_recall": 0.6416184971098265,
      "eval_allNLI-dev_dot_accuracy": 0.666015625,
      "eval_allNLI-dev_dot_accuracy_threshold": 476.4175720214844,
      "eval_allNLI-dev_dot_ap": 0.44362563057943183,
      "eval_allNLI-dev_dot_f1": 0.5435168738898757,
      "eval_allNLI-dev_dot_f1_threshold": 388.515625,
      "eval_allNLI-dev_dot_precision": 0.3923076923076923,
      "eval_allNLI-dev_dot_recall": 0.884393063583815,
      "eval_allNLI-dev_euclidean_accuracy": 0.720703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.71603775024414,
      "eval_allNLI-dev_euclidean_ap": 0.5995995762619067,
      "eval_allNLI-dev_euclidean_f1": 0.5978260869565217,
      "eval_allNLI-dev_euclidean_f1_threshold": 11.47945499420166,
      "eval_allNLI-dev_euclidean_precision": 0.5641025641025641,
      "eval_allNLI-dev_euclidean_recall": 0.6358381502890174,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 164.6937255859375,
      "eval_allNLI-dev_manhattan_ap": 0.5987554652648344,
      "eval_allNLI-dev_manhattan_f1": 0.6066838046272494,
      "eval_allNLI-dev_manhattan_f1_threshold": 211.4429168701172,
      "eval_allNLI-dev_manhattan_precision": 0.5462962962962963,
      "eval_allNLI-dev_manhattan_recall": 0.6820809248554913,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 476.4175720214844,
      "eval_allNLI-dev_max_ap": 0.5995995762619067,
      "eval_allNLI-dev_max_f1": 0.6066838046272494,
      "eval_allNLI-dev_max_f1_threshold": 388.515625,
      "eval_allNLI-dev_max_precision": 0.5641025641025641,
      "eval_allNLI-dev_max_recall": 0.884393063583815,
      "eval_sequential_score": 0.7105096682981787,
      "eval_sts-test_pearson_cosine": 0.8114975593444413,
      "eval_sts-test_pearson_dot": 0.7777542583389272,
      "eval_sts-test_pearson_euclidean": 0.8402442512729632,
      "eval_sts-test_pearson_manhattan": 0.839058121041468,
      "eval_sts-test_pearson_max": 0.8402442512729632,
      "eval_sts-test_spearman_cosine": 0.8450279550687225,
      "eval_sts-test_spearman_dot": 0.7640361376748169,
      "eval_sts-test_spearman_euclidean": 0.8344748468611869,
      "eval_sts-test_spearman_manhattan": 0.8344584678995177,
      "eval_sts-test_spearman_max": 0.8450279550687225,
      "eval_vitaminc-pairs_loss": 4.192330360412598,
      "eval_vitaminc-pairs_runtime": 5.4934,
      "eval_vitaminc-pairs_samples_per_second": 23.301,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_negation-triplets_loss": 1.776087999343872,
      "eval_negation-triplets_runtime": 1.0852,
      "eval_negation-triplets_samples_per_second": 117.952,
      "eval_negation-triplets_steps_per_second": 1.843,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_scitail-pairs-pos_loss": 0.16301314532756805,
      "eval_scitail-pairs-pos_runtime": 1.2781,
      "eval_scitail-pairs-pos_samples_per_second": 100.147,
      "eval_scitail-pairs-pos_steps_per_second": 1.565,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_scitail-pairs-qa_loss": 0.03246322646737099,
      "eval_scitail-pairs-qa_runtime": 0.7859,
      "eval_scitail-pairs-qa_samples_per_second": 162.869,
      "eval_scitail-pairs-qa_steps_per_second": 2.545,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_xsum-pairs_loss": 0.4296410381793976,
      "eval_xsum-pairs_runtime": 3.9228,
      "eval_xsum-pairs_samples_per_second": 32.629,
      "eval_xsum-pairs_steps_per_second": 0.51,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_sciq_pairs_loss": 0.07025601714849472,
      "eval_sciq_pairs_runtime": 5.9689,
      "eval_sciq_pairs_samples_per_second": 21.445,
      "eval_sciq_pairs_steps_per_second": 0.335,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_qasc_pairs_loss": 0.6239461302757263,
      "eval_qasc_pairs_runtime": 0.9107,
      "eval_qasc_pairs_samples_per_second": 140.545,
      "eval_qasc_pairs_steps_per_second": 2.196,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_openbookqa_pairs_loss": 1.4937922954559326,
      "eval_openbookqa_pairs_runtime": 0.8682,
      "eval_openbookqa_pairs_samples_per_second": 147.425,
      "eval_openbookqa_pairs_steps_per_second": 2.304,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_msmarco_pairs_loss": 0.616762101650238,
      "eval_msmarco_pairs_runtime": 1.9623,
      "eval_msmarco_pairs_samples_per_second": 65.23,
      "eval_msmarco_pairs_steps_per_second": 1.019,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_nq_pairs_loss": 1.1604129076004028,
      "eval_nq_pairs_runtime": 3.3331,
      "eval_nq_pairs_samples_per_second": 38.403,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_trivia_pairs_loss": 1.0031338930130005,
      "eval_trivia_pairs_runtime": 4.4801,
      "eval_trivia_pairs_samples_per_second": 28.571,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_gooaq_pairs_loss": 1.1163551807403564,
      "eval_gooaq_pairs_runtime": 1.4598,
      "eval_gooaq_pairs_samples_per_second": 87.681,
      "eval_gooaq_pairs_steps_per_second": 1.37,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_paws-pos_loss": 0.04240386188030243,
      "eval_paws-pos_runtime": 1.0373,
      "eval_paws-pos_samples_per_second": 123.399,
      "eval_paws-pos_steps_per_second": 1.928,
      "step": 820
    },
    {
      "epoch": 0.6361520558572537,
      "eval_global_dataset_loss": 0.5452271103858948,
      "eval_global_dataset_runtime": 19.4483,
      "eval_global_dataset_samples_per_second": 21.39,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 820
    },
    {
      "epoch": 0.6369278510473235,
      "grad_norm": 8.425275802612305,
      "learning_rate": 3.3642773207990596e-05,
      "loss": 0.4803,
      "step": 821
    },
    {
      "epoch": 0.6377036462373933,
      "grad_norm": 2.8848042488098145,
      "learning_rate": 3.368390129259694e-05,
      "loss": 0.0942,
      "step": 822
    },
    {
      "epoch": 0.6384794414274632,
      "grad_norm": 7.95778226852417,
      "learning_rate": 3.3725029377203286e-05,
      "loss": 0.52,
      "step": 823
    },
    {
      "epoch": 0.6392552366175329,
      "grad_norm": 7.62559175491333,
      "learning_rate": 3.376615746180963e-05,
      "loss": 0.3963,
      "step": 824
    },
    {
      "epoch": 0.6400310318076028,
      "grad_norm": 8.555058479309082,
      "learning_rate": 3.380728554641598e-05,
      "loss": 0.4374,
      "step": 825
    },
    {
      "epoch": 0.6408068269976727,
      "grad_norm": 14.613774299621582,
      "learning_rate": 3.384841363102232e-05,
      "loss": 1.3948,
      "step": 826
    },
    {
      "epoch": 0.6415826221877424,
      "grad_norm": 1.0478379726409912,
      "learning_rate": 3.388954171562867e-05,
      "loss": 0.0138,
      "step": 827
    },
    {
      "epoch": 0.6423584173778123,
      "grad_norm": 7.231791019439697,
      "learning_rate": 3.393066980023501e-05,
      "loss": 0.3117,
      "step": 828
    },
    {
      "epoch": 0.6431342125678821,
      "grad_norm": 7.956910610198975,
      "learning_rate": 3.3971797884841365e-05,
      "loss": 0.32,
      "step": 829
    },
    {
      "epoch": 0.6439100077579519,
      "grad_norm": 10.23410415649414,
      "learning_rate": 3.40129259694477e-05,
      "loss": 0.6437,
      "step": 830
    },
    {
      "epoch": 0.6446858029480217,
      "grad_norm": 12.386017799377441,
      "learning_rate": 3.4054054054054055e-05,
      "loss": 1.3787,
      "step": 831
    },
    {
      "epoch": 0.6454615981380916,
      "grad_norm": 13.269991874694824,
      "learning_rate": 3.4095182138660394e-05,
      "loss": 1.1593,
      "step": 832
    },
    {
      "epoch": 0.6462373933281613,
      "grad_norm": 7.184254169464111,
      "learning_rate": 3.413631022326674e-05,
      "loss": 0.3902,
      "step": 833
    },
    {
      "epoch": 0.6470131885182312,
      "grad_norm": 9.21146297454834,
      "learning_rate": 3.417743830787309e-05,
      "loss": 0.4275,
      "step": 834
    },
    {
      "epoch": 0.647788983708301,
      "grad_norm": 2.9569036960601807,
      "learning_rate": 3.421856639247943e-05,
      "loss": 0.087,
      "step": 835
    },
    {
      "epoch": 0.6485647788983708,
      "grad_norm": 9.718716621398926,
      "learning_rate": 3.425969447708578e-05,
      "loss": 0.4947,
      "step": 836
    },
    {
      "epoch": 0.6493405740884407,
      "grad_norm": 10.130070686340332,
      "learning_rate": 3.430082256169213e-05,
      "loss": 0.6006,
      "step": 837
    },
    {
      "epoch": 0.6501163692785105,
      "grad_norm": 7.984280586242676,
      "learning_rate": 3.4341950646298466e-05,
      "loss": 0.3932,
      "step": 838
    },
    {
      "epoch": 0.6508921644685803,
      "grad_norm": 13.934252738952637,
      "learning_rate": 3.438307873090482e-05,
      "loss": 1.2202,
      "step": 839
    },
    {
      "epoch": 0.6516679596586501,
      "grad_norm": 11.00302505493164,
      "learning_rate": 3.4424206815511156e-05,
      "loss": 1.5607,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_Qnli-dev_cosine_accuracy": 0.67578125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8505039215087891,
      "eval_Qnli-dev_cosine_ap": 0.7119426569877745,
      "eval_Qnli-dev_cosine_f1": 0.6843971631205673,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7890456914901733,
      "eval_Qnli-dev_cosine_precision": 0.5884146341463414,
      "eval_Qnli-dev_cosine_recall": 0.8177966101694916,
      "eval_Qnli-dev_dot_accuracy": 0.650390625,
      "eval_Qnli-dev_dot_accuracy_threshold": 425.3107604980469,
      "eval_Qnli-dev_dot_ap": 0.6269845366138903,
      "eval_Qnli-dev_dot_f1": 0.6686746987951808,
      "eval_Qnli-dev_dot_f1_threshold": 347.7598571777344,
      "eval_Qnli-dev_dot_precision": 0.5186915887850467,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.66796875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.454263687133789,
      "eval_Qnli-dev_euclidean_ap": 0.7074799488506723,
      "eval_Qnli-dev_euclidean_f1": 0.6893039049235994,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.199814796447754,
      "eval_Qnli-dev_euclidean_precision": 0.5750708215297451,
      "eval_Qnli-dev_euclidean_recall": 0.8601694915254238,
      "eval_Qnli-dev_manhattan_accuracy": 0.6796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 218.44036865234375,
      "eval_Qnli-dev_manhattan_ap": 0.7004108438466783,
      "eval_Qnli-dev_manhattan_f1": 0.6884176182707994,
      "eval_Qnli-dev_manhattan_f1_threshold": 279.2939758300781,
      "eval_Qnli-dev_manhattan_precision": 0.5596816976127321,
      "eval_Qnli-dev_manhattan_recall": 0.8940677966101694,
      "eval_Qnli-dev_max_accuracy": 0.6796875,
      "eval_Qnli-dev_max_accuracy_threshold": 425.3107604980469,
      "eval_Qnli-dev_max_ap": 0.7119426569877745,
      "eval_Qnli-dev_max_f1": 0.6893039049235994,
      "eval_Qnli-dev_max_f1_threshold": 347.7598571777344,
      "eval_Qnli-dev_max_precision": 0.5884146341463414,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.70703125,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8842862844467163,
      "eval_allNLI-dev_cosine_ap": 0.59212475826102,
      "eval_allNLI-dev_cosine_f1": 0.6048565121412803,
      "eval_allNLI-dev_cosine_f1_threshold": 0.812332034111023,
      "eval_allNLI-dev_cosine_precision": 0.48928571428571427,
      "eval_allNLI-dev_cosine_recall": 0.791907514450867,
      "eval_allNLI-dev_dot_accuracy": 0.677734375,
      "eval_allNLI-dev_dot_accuracy_threshold": 451.3145751953125,
      "eval_allNLI-dev_dot_ap": 0.4639064297219187,
      "eval_allNLI-dev_dot_f1": 0.580896686159844,
      "eval_allNLI-dev_dot_f1_threshold": 352.40753173828125,
      "eval_allNLI-dev_dot_precision": 0.43823529411764706,
      "eval_allNLI-dev_dot_recall": 0.861271676300578,
      "eval_allNLI-dev_euclidean_accuracy": 0.720703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 11.022924423217773,
      "eval_allNLI-dev_euclidean_ap": 0.5993217762757014,
      "eval_allNLI-dev_euclidean_f1": 0.6179245283018867,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.640939712524414,
      "eval_allNLI-dev_euclidean_precision": 0.5219123505976095,
      "eval_allNLI-dev_euclidean_recall": 0.7572254335260116,
      "eval_allNLI-dev_manhattan_accuracy": 0.720703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 186.68746948242188,
      "eval_allNLI-dev_manhattan_ap": 0.602591177953656,
      "eval_allNLI-dev_manhattan_f1": 0.6269315673289184,
      "eval_allNLI-dev_manhattan_f1_threshold": 235.98388671875,
      "eval_allNLI-dev_manhattan_precision": 0.5071428571428571,
      "eval_allNLI-dev_manhattan_recall": 0.8208092485549133,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 451.3145751953125,
      "eval_allNLI-dev_max_ap": 0.602591177953656,
      "eval_allNLI-dev_max_f1": 0.6269315673289184,
      "eval_allNLI-dev_max_f1_threshold": 352.40753173828125,
      "eval_allNLI-dev_max_precision": 0.5219123505976095,
      "eval_allNLI-dev_max_recall": 0.861271676300578,
      "eval_sequential_score": 0.7119426569877745,
      "eval_sts-test_pearson_cosine": 0.8056133897321561,
      "eval_sts-test_pearson_dot": 0.7788407478193802,
      "eval_sts-test_pearson_euclidean": 0.8292731923559498,
      "eval_sts-test_pearson_manhattan": 0.8265002974859611,
      "eval_sts-test_pearson_max": 0.8292731923559498,
      "eval_sts-test_spearman_cosine": 0.8339219897779575,
      "eval_sts-test_spearman_dot": 0.7616930958821476,
      "eval_sts-test_spearman_euclidean": 0.8240892873763006,
      "eval_sts-test_spearman_manhattan": 0.8228119968736672,
      "eval_sts-test_spearman_max": 0.8339219897779575,
      "eval_vitaminc-pairs_loss": 3.695993423461914,
      "eval_vitaminc-pairs_runtime": 5.5055,
      "eval_vitaminc-pairs_samples_per_second": 23.249,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_negation-triplets_loss": 1.801641821861267,
      "eval_negation-triplets_runtime": 1.1276,
      "eval_negation-triplets_samples_per_second": 113.52,
      "eval_negation-triplets_steps_per_second": 1.774,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_scitail-pairs-pos_loss": 0.158038929104805,
      "eval_scitail-pairs-pos_runtime": 1.3045,
      "eval_scitail-pairs-pos_samples_per_second": 98.126,
      "eval_scitail-pairs-pos_steps_per_second": 1.533,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_scitail-pairs-qa_loss": 0.03073505125939846,
      "eval_scitail-pairs-qa_runtime": 0.782,
      "eval_scitail-pairs-qa_samples_per_second": 163.682,
      "eval_scitail-pairs-qa_steps_per_second": 2.558,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_xsum-pairs_loss": 0.39707228541374207,
      "eval_xsum-pairs_runtime": 3.9314,
      "eval_xsum-pairs_samples_per_second": 32.558,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_sciq_pairs_loss": 0.06643799692392349,
      "eval_sciq_pairs_runtime": 6.0572,
      "eval_sciq_pairs_samples_per_second": 21.132,
      "eval_sciq_pairs_steps_per_second": 0.33,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_qasc_pairs_loss": 0.6159921288490295,
      "eval_qasc_pairs_runtime": 0.9365,
      "eval_qasc_pairs_samples_per_second": 136.683,
      "eval_qasc_pairs_steps_per_second": 2.136,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_openbookqa_pairs_loss": 1.4330188035964966,
      "eval_openbookqa_pairs_runtime": 0.8645,
      "eval_openbookqa_pairs_samples_per_second": 148.06,
      "eval_openbookqa_pairs_steps_per_second": 2.313,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_msmarco_pairs_loss": 0.627158522605896,
      "eval_msmarco_pairs_runtime": 1.9688,
      "eval_msmarco_pairs_samples_per_second": 65.014,
      "eval_msmarco_pairs_steps_per_second": 1.016,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_nq_pairs_loss": 1.007352590560913,
      "eval_nq_pairs_runtime": 3.3458,
      "eval_nq_pairs_samples_per_second": 38.256,
      "eval_nq_pairs_steps_per_second": 0.598,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_trivia_pairs_loss": 1.168574333190918,
      "eval_trivia_pairs_runtime": 4.4881,
      "eval_trivia_pairs_samples_per_second": 28.52,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_gooaq_pairs_loss": 1.0054221153259277,
      "eval_gooaq_pairs_runtime": 1.478,
      "eval_gooaq_pairs_samples_per_second": 86.604,
      "eval_gooaq_pairs_steps_per_second": 1.353,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_paws-pos_loss": 0.044977836310863495,
      "eval_paws-pos_runtime": 1.0436,
      "eval_paws-pos_samples_per_second": 122.654,
      "eval_paws-pos_steps_per_second": 1.916,
      "step": 840
    },
    {
      "epoch": 0.6516679596586501,
      "eval_global_dataset_loss": 0.49039849638938904,
      "eval_global_dataset_runtime": 19.427,
      "eval_global_dataset_samples_per_second": 21.414,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 840
    },
    {
      "epoch": 0.65244375484872,
      "grad_norm": 0.8065465688705444,
      "learning_rate": 3.446533490011751e-05,
      "loss": 0.053,
      "step": 841
    },
    {
      "epoch": 0.6532195500387897,
      "grad_norm": 13.056890487670898,
      "learning_rate": 3.4506462984723853e-05,
      "loss": 1.4751,
      "step": 842
    },
    {
      "epoch": 0.6539953452288596,
      "grad_norm": 11.409846305847168,
      "learning_rate": 3.454759106933019e-05,
      "loss": 1.2965,
      "step": 843
    },
    {
      "epoch": 0.6547711404189294,
      "grad_norm": 12.87276554107666,
      "learning_rate": 3.4588719153936544e-05,
      "loss": 1.2676,
      "step": 844
    },
    {
      "epoch": 0.6555469356089992,
      "grad_norm": 16.317293167114258,
      "learning_rate": 3.462984723854289e-05,
      "loss": 2.5868,
      "step": 845
    },
    {
      "epoch": 0.656322730799069,
      "grad_norm": 11.126489639282227,
      "learning_rate": 3.4670975323149235e-05,
      "loss": 1.1625,
      "step": 846
    },
    {
      "epoch": 0.6570985259891389,
      "grad_norm": 9.192584037780762,
      "learning_rate": 3.471210340775558e-05,
      "loss": 0.4887,
      "step": 847
    },
    {
      "epoch": 0.6578743211792087,
      "grad_norm": 9.569890022277832,
      "learning_rate": 3.4753231492361925e-05,
      "loss": 1.0127,
      "step": 848
    },
    {
      "epoch": 0.6586501163692785,
      "grad_norm": 11.920380592346191,
      "learning_rate": 3.479435957696827e-05,
      "loss": 1.4533,
      "step": 849
    },
    {
      "epoch": 0.6594259115593484,
      "grad_norm": 10.317612648010254,
      "learning_rate": 3.4835487661574616e-05,
      "loss": 0.8889,
      "step": 850
    },
    {
      "epoch": 0.6602017067494181,
      "grad_norm": 10.163758277893066,
      "learning_rate": 3.487661574618096e-05,
      "loss": 1.0069,
      "step": 851
    },
    {
      "epoch": 0.660977501939488,
      "grad_norm": 6.893292427062988,
      "learning_rate": 3.4917743830787306e-05,
      "loss": 0.4064,
      "step": 852
    },
    {
      "epoch": 0.6617532971295578,
      "grad_norm": 5.340035438537598,
      "learning_rate": 3.495887191539365e-05,
      "loss": 0.2501,
      "step": 853
    },
    {
      "epoch": 0.6625290923196276,
      "grad_norm": 8.26956844329834,
      "learning_rate": 3.5e-05,
      "loss": 0.4212,
      "step": 854
    },
    {
      "epoch": 0.6633048875096974,
      "grad_norm": 7.952808856964111,
      "learning_rate": 3.499997394053394e-05,
      "loss": 0.4115,
      "step": 855
    },
    {
      "epoch": 0.6640806826997673,
      "grad_norm": 9.371671676635742,
      "learning_rate": 3.499989576222202e-05,
      "loss": 0.3841,
      "step": 856
    },
    {
      "epoch": 0.664856477889837,
      "grad_norm": 12.57394027709961,
      "learning_rate": 3.499976546532293e-05,
      "loss": 0.9916,
      "step": 857
    },
    {
      "epoch": 0.6656322730799069,
      "grad_norm": 2.8098905086517334,
      "learning_rate": 3.4999583050267844e-05,
      "loss": 0.0504,
      "step": 858
    },
    {
      "epoch": 0.6664080682699767,
      "grad_norm": 7.520341396331787,
      "learning_rate": 3.49993485176604e-05,
      "loss": 0.3424,
      "step": 859
    },
    {
      "epoch": 0.6671838634600465,
      "grad_norm": 14.273913383483887,
      "learning_rate": 3.499906186827669e-05,
      "loss": 1.2562,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_Qnli-dev_cosine_accuracy": 0.68359375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8516297936439514,
      "eval_Qnli-dev_cosine_ap": 0.7057068833691326,
      "eval_Qnli-dev_cosine_f1": 0.6788432267884322,
      "eval_Qnli-dev_cosine_f1_threshold": 0.6823035478591919,
      "eval_Qnli-dev_cosine_precision": 0.5296912114014252,
      "eval_Qnli-dev_cosine_recall": 0.9449152542372882,
      "eval_Qnli-dev_dot_accuracy": 0.650390625,
      "eval_Qnli-dev_dot_accuracy_threshold": 422.2347412109375,
      "eval_Qnli-dev_dot_ap": 0.6059597079421682,
      "eval_Qnli-dev_dot_f1": 0.6576980568011958,
      "eval_Qnli-dev_dot_f1_threshold": 331.4080810546875,
      "eval_Qnli-dev_dot_precision": 0.5080831408775982,
      "eval_Qnli-dev_dot_recall": 0.9322033898305084,
      "eval_Qnli-dev_euclidean_accuracy": 0.671875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.281379699707031,
      "eval_Qnli-dev_euclidean_ap": 0.704767518205549,
      "eval_Qnli-dev_euclidean_f1": 0.6855345911949685,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.382638931274414,
      "eval_Qnli-dev_euclidean_precision": 0.545,
      "eval_Qnli-dev_euclidean_recall": 0.923728813559322,
      "eval_Qnli-dev_manhattan_accuracy": 0.673828125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 223.9913330078125,
      "eval_Qnli-dev_manhattan_ap": 0.707493799344846,
      "eval_Qnli-dev_manhattan_f1": 0.6884735202492211,
      "eval_Qnli-dev_manhattan_f1_threshold": 317.806640625,
      "eval_Qnli-dev_manhattan_precision": 0.5443349753694581,
      "eval_Qnli-dev_manhattan_recall": 0.9364406779661016,
      "eval_Qnli-dev_max_accuracy": 0.68359375,
      "eval_Qnli-dev_max_accuracy_threshold": 422.2347412109375,
      "eval_Qnli-dev_max_ap": 0.707493799344846,
      "eval_Qnli-dev_max_f1": 0.6884735202492211,
      "eval_Qnli-dev_max_f1_threshold": 331.4080810546875,
      "eval_Qnli-dev_max_precision": 0.545,
      "eval_Qnli-dev_max_recall": 0.9449152542372882,
      "eval_allNLI-dev_cosine_accuracy": 0.708984375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9153469800949097,
      "eval_allNLI-dev_cosine_ap": 0.5901974841145107,
      "eval_allNLI-dev_cosine_f1": 0.5955734406438632,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7628065943717957,
      "eval_allNLI-dev_cosine_precision": 0.4567901234567901,
      "eval_allNLI-dev_cosine_recall": 0.8554913294797688,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 432.1881408691406,
      "eval_allNLI-dev_dot_ap": 0.4680754372531527,
      "eval_allNLI-dev_dot_f1": 0.5595238095238095,
      "eval_allNLI-dev_dot_f1_threshold": 336.7421569824219,
      "eval_allNLI-dev_dot_precision": 0.4259818731117825,
      "eval_allNLI-dev_dot_recall": 0.815028901734104,
      "eval_allNLI-dev_euclidean_accuracy": 0.71484375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.299095153808594,
      "eval_allNLI-dev_euclidean_ap": 0.5926947177528008,
      "eval_allNLI-dev_euclidean_f1": 0.6033755274261603,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.113641738891602,
      "eval_allNLI-dev_euclidean_precision": 0.4750830564784053,
      "eval_allNLI-dev_euclidean_recall": 0.8265895953757225,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 189.2566375732422,
      "eval_allNLI-dev_manhattan_ap": 0.5955858571526622,
      "eval_allNLI-dev_manhattan_f1": 0.606694560669456,
      "eval_allNLI-dev_manhattan_f1_threshold": 257.765625,
      "eval_allNLI-dev_manhattan_precision": 0.47540983606557374,
      "eval_allNLI-dev_manhattan_recall": 0.838150289017341,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 432.1881408691406,
      "eval_allNLI-dev_max_ap": 0.5955858571526622,
      "eval_allNLI-dev_max_f1": 0.606694560669456,
      "eval_allNLI-dev_max_f1_threshold": 336.7421569824219,
      "eval_allNLI-dev_max_precision": 0.47540983606557374,
      "eval_allNLI-dev_max_recall": 0.8554913294797688,
      "eval_sequential_score": 0.707493799344846,
      "eval_sts-test_pearson_cosine": 0.813022556628032,
      "eval_sts-test_pearson_dot": 0.7859908850845266,
      "eval_sts-test_pearson_euclidean": 0.8331509505788419,
      "eval_sts-test_pearson_manhattan": 0.831921399982832,
      "eval_sts-test_pearson_max": 0.8331509505788419,
      "eval_sts-test_spearman_cosine": 0.8396164982874904,
      "eval_sts-test_spearman_dot": 0.7781822351569454,
      "eval_sts-test_spearman_euclidean": 0.8288816104561828,
      "eval_sts-test_spearman_manhattan": 0.8279373588408243,
      "eval_sts-test_spearman_max": 0.8396164982874904,
      "eval_vitaminc-pairs_loss": 3.792736291885376,
      "eval_vitaminc-pairs_runtime": 5.5319,
      "eval_vitaminc-pairs_samples_per_second": 23.138,
      "eval_vitaminc-pairs_steps_per_second": 0.362,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_negation-triplets_loss": 1.7961204051971436,
      "eval_negation-triplets_runtime": 1.0889,
      "eval_negation-triplets_samples_per_second": 117.553,
      "eval_negation-triplets_steps_per_second": 1.837,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_scitail-pairs-pos_loss": 0.0998324453830719,
      "eval_scitail-pairs-pos_runtime": 1.2829,
      "eval_scitail-pairs-pos_samples_per_second": 99.774,
      "eval_scitail-pairs-pos_steps_per_second": 1.559,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_scitail-pairs-qa_loss": 0.012504334561526775,
      "eval_scitail-pairs-qa_runtime": 0.7999,
      "eval_scitail-pairs-qa_samples_per_second": 160.011,
      "eval_scitail-pairs-qa_steps_per_second": 2.5,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_xsum-pairs_loss": 0.42498546838760376,
      "eval_xsum-pairs_runtime": 3.9316,
      "eval_xsum-pairs_samples_per_second": 32.556,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_sciq_pairs_loss": 0.055727776139974594,
      "eval_sciq_pairs_runtime": 6.014,
      "eval_sciq_pairs_samples_per_second": 21.284,
      "eval_sciq_pairs_steps_per_second": 0.333,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_qasc_pairs_loss": 0.5652861595153809,
      "eval_qasc_pairs_runtime": 0.9279,
      "eval_qasc_pairs_samples_per_second": 137.953,
      "eval_qasc_pairs_steps_per_second": 2.156,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_openbookqa_pairs_loss": 1.3354136943817139,
      "eval_openbookqa_pairs_runtime": 0.8737,
      "eval_openbookqa_pairs_samples_per_second": 146.504,
      "eval_openbookqa_pairs_steps_per_second": 2.289,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_msmarco_pairs_loss": 0.6380911469459534,
      "eval_msmarco_pairs_runtime": 1.977,
      "eval_msmarco_pairs_samples_per_second": 64.745,
      "eval_msmarco_pairs_steps_per_second": 1.012,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_nq_pairs_loss": 1.2092591524124146,
      "eval_nq_pairs_runtime": 3.3357,
      "eval_nq_pairs_samples_per_second": 38.372,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_trivia_pairs_loss": 1.2707291841506958,
      "eval_trivia_pairs_runtime": 4.4851,
      "eval_trivia_pairs_samples_per_second": 28.539,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_gooaq_pairs_loss": 0.9791943430900574,
      "eval_gooaq_pairs_runtime": 1.4633,
      "eval_gooaq_pairs_samples_per_second": 87.475,
      "eval_gooaq_pairs_steps_per_second": 1.367,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_paws-pos_loss": 0.04471004381775856,
      "eval_paws-pos_runtime": 1.0598,
      "eval_paws-pos_samples_per_second": 120.777,
      "eval_paws-pos_steps_per_second": 1.887,
      "step": 860
    },
    {
      "epoch": 0.6671838634600465,
      "eval_global_dataset_loss": 0.4852733016014099,
      "eval_global_dataset_runtime": 19.4459,
      "eval_global_dataset_samples_per_second": 21.393,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 860
    },
    {
      "epoch": 0.6679596586501164,
      "grad_norm": 8.364562034606934,
      "learning_rate": 3.499872310306529e-05,
      "loss": 0.4189,
      "step": 861
    },
    {
      "epoch": 0.6687354538401862,
      "grad_norm": 14.270318031311035,
      "learning_rate": 3.499833222314721e-05,
      "loss": 1.168,
      "step": 862
    },
    {
      "epoch": 0.669511249030256,
      "grad_norm": 6.3441853523254395,
      "learning_rate": 3.499788922981593e-05,
      "loss": 0.3288,
      "step": 863
    },
    {
      "epoch": 0.6702870442203258,
      "grad_norm": 12.241477966308594,
      "learning_rate": 3.499739412453738e-05,
      "loss": 1.2634,
      "step": 864
    },
    {
      "epoch": 0.6710628394103957,
      "grad_norm": 11.538920402526855,
      "learning_rate": 3.499684690894993e-05,
      "loss": 0.9304,
      "step": 865
    },
    {
      "epoch": 0.6718386346004654,
      "grad_norm": 7.381165027618408,
      "learning_rate": 3.499624758486438e-05,
      "loss": 0.3868,
      "step": 866
    },
    {
      "epoch": 0.6726144297905353,
      "grad_norm": 9.375253677368164,
      "learning_rate": 3.4995596154263995e-05,
      "loss": 0.9083,
      "step": 867
    },
    {
      "epoch": 0.6733902249806051,
      "grad_norm": 8.622047424316406,
      "learning_rate": 3.4994892619304444e-05,
      "loss": 0.4259,
      "step": 868
    },
    {
      "epoch": 0.674166020170675,
      "grad_norm": 8.653176307678223,
      "learning_rate": 3.499413698231381e-05,
      "loss": 0.5275,
      "step": 869
    },
    {
      "epoch": 0.6749418153607447,
      "grad_norm": 15.130743026733398,
      "learning_rate": 3.499332924579261e-05,
      "loss": 1.7172,
      "step": 870
    },
    {
      "epoch": 0.6757176105508146,
      "grad_norm": 8.044624328613281,
      "learning_rate": 3.4992469412413765e-05,
      "loss": 0.5603,
      "step": 871
    },
    {
      "epoch": 0.6764934057408845,
      "grad_norm": 11.914979934692383,
      "learning_rate": 3.4991557485022566e-05,
      "loss": 0.8937,
      "step": 872
    },
    {
      "epoch": 0.6772692009309542,
      "grad_norm": 7.6670989990234375,
      "learning_rate": 3.499059346663671e-05,
      "loss": 0.3739,
      "step": 873
    },
    {
      "epoch": 0.6780449961210241,
      "grad_norm": 9.105637550354004,
      "learning_rate": 3.498957736044628e-05,
      "loss": 0.4901,
      "step": 874
    },
    {
      "epoch": 0.6788207913110939,
      "grad_norm": 11.809444427490234,
      "learning_rate": 3.49885091698137e-05,
      "loss": 0.9293,
      "step": 875
    },
    {
      "epoch": 0.6795965865011637,
      "grad_norm": 11.217194557189941,
      "learning_rate": 3.498738889827376e-05,
      "loss": 1.1831,
      "step": 876
    },
    {
      "epoch": 0.6803723816912335,
      "grad_norm": 11.778733253479004,
      "learning_rate": 3.49862165495336e-05,
      "loss": 0.9599,
      "step": 877
    },
    {
      "epoch": 0.6811481768813034,
      "grad_norm": 7.655272483825684,
      "learning_rate": 3.498499212747269e-05,
      "loss": 0.4518,
      "step": 878
    },
    {
      "epoch": 0.6819239720713731,
      "grad_norm": 9.153346061706543,
      "learning_rate": 3.49837156361428e-05,
      "loss": 0.5798,
      "step": 879
    },
    {
      "epoch": 0.682699767261443,
      "grad_norm": 9.612966537475586,
      "learning_rate": 3.4982387079768024e-05,
      "loss": 0.6668,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_Qnli-dev_cosine_accuracy": 0.658203125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8739014863967896,
      "eval_Qnli-dev_cosine_ap": 0.6832396250223273,
      "eval_Qnli-dev_cosine_f1": 0.6656534954407294,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7337082624435425,
      "eval_Qnli-dev_cosine_precision": 0.518957345971564,
      "eval_Qnli-dev_cosine_recall": 0.9279661016949152,
      "eval_Qnli-dev_dot_accuracy": 0.615234375,
      "eval_Qnli-dev_dot_accuracy_threshold": 483.6365966796875,
      "eval_Qnli-dev_dot_ap": 0.5811670879278963,
      "eval_Qnli-dev_dot_f1": 0.6567164179104478,
      "eval_Qnli-dev_dot_f1_threshold": 356.31573486328125,
      "eval_Qnli-dev_dot_precision": 0.5069124423963134,
      "eval_Qnli-dev_dot_recall": 0.9322033898305084,
      "eval_Qnli-dev_euclidean_accuracy": 0.66015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.706809043884277,
      "eval_Qnli-dev_euclidean_ap": 0.6875489517288256,
      "eval_Qnli-dev_euclidean_f1": 0.6709886547811994,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.960616111755371,
      "eval_Qnli-dev_euclidean_precision": 0.5433070866141733,
      "eval_Qnli-dev_euclidean_recall": 0.8771186440677966,
      "eval_Qnli-dev_manhattan_accuracy": 0.666015625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 214.6758575439453,
      "eval_Qnli-dev_manhattan_ap": 0.6933964909228749,
      "eval_Qnli-dev_manhattan_f1": 0.6697965571205008,
      "eval_Qnli-dev_manhattan_f1_threshold": 291.2758483886719,
      "eval_Qnli-dev_manhattan_precision": 0.5310173697270472,
      "eval_Qnli-dev_manhattan_recall": 0.9067796610169492,
      "eval_Qnli-dev_max_accuracy": 0.666015625,
      "eval_Qnli-dev_max_accuracy_threshold": 483.6365966796875,
      "eval_Qnli-dev_max_ap": 0.6933964909228749,
      "eval_Qnli-dev_max_f1": 0.6709886547811994,
      "eval_Qnli-dev_max_f1_threshold": 356.31573486328125,
      "eval_Qnli-dev_max_precision": 0.5433070866141733,
      "eval_Qnli-dev_max_recall": 0.9322033898305084,
      "eval_allNLI-dev_cosine_accuracy": 0.7109375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9285610318183899,
      "eval_allNLI-dev_cosine_ap": 0.5798671366823452,
      "eval_allNLI-dev_cosine_f1": 0.584493041749503,
      "eval_allNLI-dev_cosine_f1_threshold": 0.7967034578323364,
      "eval_allNLI-dev_cosine_precision": 0.44545454545454544,
      "eval_allNLI-dev_cosine_recall": 0.8497109826589595,
      "eval_allNLI-dev_dot_accuracy": 0.67578125,
      "eval_allNLI-dev_dot_accuracy_threshold": 472.23895263671875,
      "eval_allNLI-dev_dot_ap": 0.47875534648608414,
      "eval_allNLI-dev_dot_f1": 0.562753036437247,
      "eval_allNLI-dev_dot_f1_threshold": 382.5263671875,
      "eval_allNLI-dev_dot_precision": 0.43302180685358255,
      "eval_allNLI-dev_dot_recall": 0.8034682080924855,
      "eval_allNLI-dev_euclidean_accuracy": 0.716796875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.449457168579102,
      "eval_allNLI-dev_euclidean_ap": 0.5816487832325188,
      "eval_allNLI-dev_euclidean_f1": 0.5894736842105264,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.506660461425781,
      "eval_allNLI-dev_euclidean_precision": 0.46357615894039733,
      "eval_allNLI-dev_euclidean_recall": 0.8092485549132948,
      "eval_allNLI-dev_manhattan_accuracy": 0.716796875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 182.58740234375,
      "eval_allNLI-dev_manhattan_ap": 0.5893710904383558,
      "eval_allNLI-dev_manhattan_f1": 0.6041666666666666,
      "eval_allNLI-dev_manhattan_f1_threshold": 242.03350830078125,
      "eval_allNLI-dev_manhattan_precision": 0.4723127035830619,
      "eval_allNLI-dev_manhattan_recall": 0.838150289017341,
      "eval_allNLI-dev_max_accuracy": 0.716796875,
      "eval_allNLI-dev_max_accuracy_threshold": 472.23895263671875,
      "eval_allNLI-dev_max_ap": 0.5893710904383558,
      "eval_allNLI-dev_max_f1": 0.6041666666666666,
      "eval_allNLI-dev_max_f1_threshold": 382.5263671875,
      "eval_allNLI-dev_max_precision": 0.4723127035830619,
      "eval_allNLI-dev_max_recall": 0.8497109826589595,
      "eval_sequential_score": 0.6933964909228749,
      "eval_sts-test_pearson_cosine": 0.811044707920606,
      "eval_sts-test_pearson_dot": 0.7419008243975282,
      "eval_sts-test_pearson_euclidean": 0.8420267935379353,
      "eval_sts-test_pearson_manhattan": 0.8394854650030468,
      "eval_sts-test_pearson_max": 0.8420267935379353,
      "eval_sts-test_spearman_cosine": 0.8440954282838484,
      "eval_sts-test_spearman_dot": 0.7264572952004014,
      "eval_sts-test_spearman_euclidean": 0.83790896915784,
      "eval_sts-test_spearman_manhattan": 0.835837075257941,
      "eval_sts-test_spearman_max": 0.8440954282838484,
      "eval_vitaminc-pairs_loss": 3.650113821029663,
      "eval_vitaminc-pairs_runtime": 5.4944,
      "eval_vitaminc-pairs_samples_per_second": 23.296,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_negation-triplets_loss": 1.7521673440933228,
      "eval_negation-triplets_runtime": 1.0917,
      "eval_negation-triplets_samples_per_second": 117.248,
      "eval_negation-triplets_steps_per_second": 1.832,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_scitail-pairs-pos_loss": 0.15876206755638123,
      "eval_scitail-pairs-pos_runtime": 1.2972,
      "eval_scitail-pairs-pos_samples_per_second": 98.674,
      "eval_scitail-pairs-pos_steps_per_second": 1.542,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_scitail-pairs-qa_loss": 0.03474993258714676,
      "eval_scitail-pairs-qa_runtime": 0.7908,
      "eval_scitail-pairs-qa_samples_per_second": 161.857,
      "eval_scitail-pairs-qa_steps_per_second": 2.529,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_xsum-pairs_loss": 0.403542160987854,
      "eval_xsum-pairs_runtime": 3.9373,
      "eval_xsum-pairs_samples_per_second": 32.509,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_sciq_pairs_loss": 0.059477634727954865,
      "eval_sciq_pairs_runtime": 6.0628,
      "eval_sciq_pairs_samples_per_second": 21.112,
      "eval_sciq_pairs_steps_per_second": 0.33,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_qasc_pairs_loss": 0.7362544536590576,
      "eval_qasc_pairs_runtime": 0.9322,
      "eval_qasc_pairs_samples_per_second": 137.307,
      "eval_qasc_pairs_steps_per_second": 2.145,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_openbookqa_pairs_loss": 1.4471515417099,
      "eval_openbookqa_pairs_runtime": 0.885,
      "eval_openbookqa_pairs_samples_per_second": 144.626,
      "eval_openbookqa_pairs_steps_per_second": 2.26,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_msmarco_pairs_loss": 0.6078033447265625,
      "eval_msmarco_pairs_runtime": 1.9891,
      "eval_msmarco_pairs_samples_per_second": 64.351,
      "eval_msmarco_pairs_steps_per_second": 1.005,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_nq_pairs_loss": 1.0600759983062744,
      "eval_nq_pairs_runtime": 3.3403,
      "eval_nq_pairs_samples_per_second": 38.319,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_trivia_pairs_loss": 1.1039668321609497,
      "eval_trivia_pairs_runtime": 4.4847,
      "eval_trivia_pairs_samples_per_second": 28.541,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_gooaq_pairs_loss": 0.7967941761016846,
      "eval_gooaq_pairs_runtime": 1.4628,
      "eval_gooaq_pairs_samples_per_second": 87.502,
      "eval_gooaq_pairs_steps_per_second": 1.367,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_paws-pos_loss": 0.04289524629712105,
      "eval_paws-pos_runtime": 1.0689,
      "eval_paws-pos_samples_per_second": 119.744,
      "eval_paws-pos_steps_per_second": 1.871,
      "step": 880
    },
    {
      "epoch": 0.682699767261443,
      "eval_global_dataset_loss": 0.47498950362205505,
      "eval_global_dataset_runtime": 19.4168,
      "eval_global_dataset_samples_per_second": 21.425,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 880
    },
    {
      "epoch": 0.6834755624515128,
      "grad_norm": 8.79952621459961,
      "learning_rate": 3.498100646274474e-05,
      "loss": 0.4126,
      "step": 881
    },
    {
      "epoch": 0.6842513576415826,
      "grad_norm": 6.2995781898498535,
      "learning_rate": 3.4979573789641585e-05,
      "loss": 0.2988,
      "step": 882
    },
    {
      "epoch": 0.6850271528316525,
      "grad_norm": 4.987382411956787,
      "learning_rate": 3.4978089065199493e-05,
      "loss": 0.3833,
      "step": 883
    },
    {
      "epoch": 0.6858029480217223,
      "grad_norm": 10.842425346374512,
      "learning_rate": 3.497655229433162e-05,
      "loss": 1.1883,
      "step": 884
    },
    {
      "epoch": 0.6865787432117921,
      "grad_norm": 9.746257781982422,
      "learning_rate": 3.497496348212334e-05,
      "loss": 0.5292,
      "step": 885
    },
    {
      "epoch": 0.6873545384018619,
      "grad_norm": 12.727143287658691,
      "learning_rate": 3.497332263383227e-05,
      "loss": 1.2004,
      "step": 886
    },
    {
      "epoch": 0.6881303335919318,
      "grad_norm": 14.975640296936035,
      "learning_rate": 3.4971629754888185e-05,
      "loss": 1.2384,
      "step": 887
    },
    {
      "epoch": 0.6889061287820015,
      "grad_norm": 9.211393356323242,
      "learning_rate": 3.4969884850893075e-05,
      "loss": 0.9863,
      "step": 888
    },
    {
      "epoch": 0.6896819239720714,
      "grad_norm": 8.209000587463379,
      "learning_rate": 3.4968087927621064e-05,
      "loss": 0.4061,
      "step": 889
    },
    {
      "epoch": 0.6904577191621412,
      "grad_norm": 8.929417610168457,
      "learning_rate": 3.496623899101841e-05,
      "loss": 0.5534,
      "step": 890
    },
    {
      "epoch": 0.691233514352211,
      "grad_norm": 18.9887638092041,
      "learning_rate": 3.496433804720351e-05,
      "loss": 2.9585,
      "step": 891
    },
    {
      "epoch": 0.6920093095422808,
      "grad_norm": 13.784379959106445,
      "learning_rate": 3.4962385102466844e-05,
      "loss": 1.2675,
      "step": 892
    },
    {
      "epoch": 0.6927851047323507,
      "grad_norm": 1.0738762617111206,
      "learning_rate": 3.496038016327099e-05,
      "loss": 0.0425,
      "step": 893
    },
    {
      "epoch": 0.6935608999224204,
      "grad_norm": 8.122675895690918,
      "learning_rate": 3.495832323625056e-05,
      "loss": 0.5381,
      "step": 894
    },
    {
      "epoch": 0.6943366951124903,
      "grad_norm": 10.782946586608887,
      "learning_rate": 3.49562143282122e-05,
      "loss": 1.0622,
      "step": 895
    },
    {
      "epoch": 0.6951124903025602,
      "grad_norm": 10.662599563598633,
      "learning_rate": 3.49540534461346e-05,
      "loss": 0.9062,
      "step": 896
    },
    {
      "epoch": 0.6958882854926299,
      "grad_norm": 7.868858337402344,
      "learning_rate": 3.49518405971684e-05,
      "loss": 0.3983,
      "step": 897
    },
    {
      "epoch": 0.6966640806826998,
      "grad_norm": 9.266629219055176,
      "learning_rate": 3.494957578863623e-05,
      "loss": 0.5936,
      "step": 898
    },
    {
      "epoch": 0.6974398758727696,
      "grad_norm": 12.59846305847168,
      "learning_rate": 3.494725902803267e-05,
      "loss": 1.2099,
      "step": 899
    },
    {
      "epoch": 0.6982156710628394,
      "grad_norm": 13.477904319763184,
      "learning_rate": 3.494489032302418e-05,
      "loss": 1.3554,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_Qnli-dev_cosine_accuracy": 0.677734375,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8567171096801758,
      "eval_Qnli-dev_cosine_ap": 0.7094826708729062,
      "eval_Qnli-dev_cosine_f1": 0.6752411575562701,
      "eval_Qnli-dev_cosine_f1_threshold": 0.764941930770874,
      "eval_Qnli-dev_cosine_precision": 0.5440414507772021,
      "eval_Qnli-dev_cosine_recall": 0.8898305084745762,
      "eval_Qnli-dev_dot_accuracy": 0.630859375,
      "eval_Qnli-dev_dot_accuracy_threshold": 486.6195068359375,
      "eval_Qnli-dev_dot_ap": 0.5995735525894889,
      "eval_Qnli-dev_dot_f1": 0.6495176848874598,
      "eval_Qnli-dev_dot_f1_threshold": 397.50433349609375,
      "eval_Qnli-dev_dot_precision": 0.5233160621761658,
      "eval_Qnli-dev_dot_recall": 0.8559322033898306,
      "eval_Qnli-dev_euclidean_accuracy": 0.673828125,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.704582214355469,
      "eval_Qnli-dev_euclidean_ap": 0.7076896940503825,
      "eval_Qnli-dev_euclidean_f1": 0.6833333333333335,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.329047203063965,
      "eval_Qnli-dev_euclidean_precision": 0.5631868131868132,
      "eval_Qnli-dev_euclidean_recall": 0.8686440677966102,
      "eval_Qnli-dev_manhattan_accuracy": 0.671875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 224.72830200195312,
      "eval_Qnli-dev_manhattan_ap": 0.7062101616210243,
      "eval_Qnli-dev_manhattan_f1": 0.6829268292682927,
      "eval_Qnli-dev_manhattan_f1_threshold": 276.5677795410156,
      "eval_Qnli-dev_manhattan_precision": 0.554089709762533,
      "eval_Qnli-dev_manhattan_recall": 0.8898305084745762,
      "eval_Qnli-dev_max_accuracy": 0.677734375,
      "eval_Qnli-dev_max_accuracy_threshold": 486.6195068359375,
      "eval_Qnli-dev_max_ap": 0.7094826708729062,
      "eval_Qnli-dev_max_f1": 0.6833333333333335,
      "eval_Qnli-dev_max_f1_threshold": 397.50433349609375,
      "eval_Qnli-dev_max_precision": 0.5631868131868132,
      "eval_Qnli-dev_max_recall": 0.8898305084745762,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8934484720230103,
      "eval_allNLI-dev_cosine_ap": 0.5832941968478464,
      "eval_allNLI-dev_cosine_f1": 0.5944700460829493,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8264994621276855,
      "eval_allNLI-dev_cosine_precision": 0.4942528735632184,
      "eval_allNLI-dev_cosine_recall": 0.7456647398843931,
      "eval_allNLI-dev_dot_accuracy": 0.67578125,
      "eval_allNLI-dev_dot_accuracy_threshold": 515.9781494140625,
      "eval_allNLI-dev_dot_ap": 0.47975114675727787,
      "eval_allNLI-dev_dot_f1": 0.5664739884393063,
      "eval_allNLI-dev_dot_f1_threshold": 363.66107177734375,
      "eval_allNLI-dev_dot_precision": 0.42485549132947975,
      "eval_allNLI-dev_dot_recall": 0.8497109826589595,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.550495147705078,
      "eval_allNLI-dev_euclidean_ap": 0.5838831241824369,
      "eval_allNLI-dev_euclidean_f1": 0.5986696230598669,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.402144432067871,
      "eval_allNLI-dev_euclidean_precision": 0.4856115107913669,
      "eval_allNLI-dev_euclidean_recall": 0.7803468208092486,
      "eval_allNLI-dev_manhattan_accuracy": 0.720703125,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 186.66268920898438,
      "eval_allNLI-dev_manhattan_ap": 0.5907220466661656,
      "eval_allNLI-dev_manhattan_f1": 0.6060606060606061,
      "eval_allNLI-dev_manhattan_f1_threshold": 230.32687377929688,
      "eval_allNLI-dev_manhattan_precision": 0.5078125,
      "eval_allNLI-dev_manhattan_recall": 0.7514450867052023,
      "eval_allNLI-dev_max_accuracy": 0.720703125,
      "eval_allNLI-dev_max_accuracy_threshold": 515.9781494140625,
      "eval_allNLI-dev_max_ap": 0.5907220466661656,
      "eval_allNLI-dev_max_f1": 0.6060606060606061,
      "eval_allNLI-dev_max_f1_threshold": 363.66107177734375,
      "eval_allNLI-dev_max_precision": 0.5078125,
      "eval_allNLI-dev_max_recall": 0.8497109826589595,
      "eval_sequential_score": 0.7094826708729062,
      "eval_sts-test_pearson_cosine": 0.8204430236461935,
      "eval_sts-test_pearson_dot": 0.7577759507611783,
      "eval_sts-test_pearson_euclidean": 0.8432313462757036,
      "eval_sts-test_pearson_manhattan": 0.840958244747654,
      "eval_sts-test_pearson_max": 0.8432313462757036,
      "eval_sts-test_spearman_cosine": 0.8474270254406541,
      "eval_sts-test_spearman_dot": 0.7465720474193461,
      "eval_sts-test_spearman_euclidean": 0.8376924625552284,
      "eval_sts-test_spearman_manhattan": 0.836714602742565,
      "eval_sts-test_spearman_max": 0.8474270254406541,
      "eval_vitaminc-pairs_loss": 3.7364420890808105,
      "eval_vitaminc-pairs_runtime": 5.5123,
      "eval_vitaminc-pairs_samples_per_second": 23.221,
      "eval_vitaminc-pairs_steps_per_second": 0.363,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_negation-triplets_loss": 1.7152256965637207,
      "eval_negation-triplets_runtime": 1.0868,
      "eval_negation-triplets_samples_per_second": 117.773,
      "eval_negation-triplets_steps_per_second": 1.84,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_scitail-pairs-pos_loss": 0.1542925089597702,
      "eval_scitail-pairs-pos_runtime": 1.3113,
      "eval_scitail-pairs-pos_samples_per_second": 97.616,
      "eval_scitail-pairs-pos_steps_per_second": 1.525,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_scitail-pairs-qa_loss": 0.031740859150886536,
      "eval_scitail-pairs-qa_runtime": 0.78,
      "eval_scitail-pairs-qa_samples_per_second": 164.105,
      "eval_scitail-pairs-qa_steps_per_second": 2.564,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_xsum-pairs_loss": 0.33082854747772217,
      "eval_xsum-pairs_runtime": 3.9293,
      "eval_xsum-pairs_samples_per_second": 32.575,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_sciq_pairs_loss": 0.05822315067052841,
      "eval_sciq_pairs_runtime": 6.0813,
      "eval_sciq_pairs_samples_per_second": 21.048,
      "eval_sciq_pairs_steps_per_second": 0.329,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_qasc_pairs_loss": 0.5999854207038879,
      "eval_qasc_pairs_runtime": 0.9353,
      "eval_qasc_pairs_samples_per_second": 136.853,
      "eval_qasc_pairs_steps_per_second": 2.138,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_openbookqa_pairs_loss": 1.3743079900741577,
      "eval_openbookqa_pairs_runtime": 0.8899,
      "eval_openbookqa_pairs_samples_per_second": 143.831,
      "eval_openbookqa_pairs_steps_per_second": 2.247,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_msmarco_pairs_loss": 0.5703839659690857,
      "eval_msmarco_pairs_runtime": 1.9802,
      "eval_msmarco_pairs_samples_per_second": 64.641,
      "eval_msmarco_pairs_steps_per_second": 1.01,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_nq_pairs_loss": 1.066963791847229,
      "eval_nq_pairs_runtime": 3.3495,
      "eval_nq_pairs_samples_per_second": 38.215,
      "eval_nq_pairs_steps_per_second": 0.597,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_trivia_pairs_loss": 0.995316743850708,
      "eval_trivia_pairs_runtime": 4.4938,
      "eval_trivia_pairs_samples_per_second": 28.484,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_gooaq_pairs_loss": 0.8502556085586548,
      "eval_gooaq_pairs_runtime": 1.4839,
      "eval_gooaq_pairs_samples_per_second": 86.261,
      "eval_gooaq_pairs_steps_per_second": 1.348,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_paws-pos_loss": 0.042505402117967606,
      "eval_paws-pos_runtime": 1.048,
      "eval_paws-pos_samples_per_second": 122.132,
      "eval_paws-pos_steps_per_second": 1.908,
      "step": 900
    },
    {
      "epoch": 0.6982156710628394,
      "eval_global_dataset_loss": 0.4473607838153839,
      "eval_global_dataset_runtime": 19.4498,
      "eval_global_dataset_samples_per_second": 21.388,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 900
    },
    {
      "epoch": 0.6989914662529092,
      "grad_norm": 4.887351036071777,
      "learning_rate": 3.494246968144915e-05,
      "loss": 0.1761,
      "step": 901
    },
    {
      "epoch": 0.6997672614429791,
      "grad_norm": 7.084521770477295,
      "learning_rate": 3.4939997111317794e-05,
      "loss": 0.3289,
      "step": 902
    },
    {
      "epoch": 0.7005430566330488,
      "grad_norm": 9.108835220336914,
      "learning_rate": 3.493747262081222e-05,
      "loss": 0.64,
      "step": 903
    },
    {
      "epoch": 0.7013188518231187,
      "grad_norm": 8.509134292602539,
      "learning_rate": 3.493489621828629e-05,
      "loss": 0.4796,
      "step": 904
    },
    {
      "epoch": 0.7020946470131885,
      "grad_norm": 7.357263088226318,
      "learning_rate": 3.49322679122657e-05,
      "loss": 0.3145,
      "step": 905
    },
    {
      "epoch": 0.7028704422032583,
      "grad_norm": 7.948583126068115,
      "learning_rate": 3.4929587711447865e-05,
      "loss": 0.3716,
      "step": 906
    },
    {
      "epoch": 0.7036462373933282,
      "grad_norm": 11.190608024597168,
      "learning_rate": 3.492685562470194e-05,
      "loss": 0.9676,
      "step": 907
    },
    {
      "epoch": 0.704422032583398,
      "grad_norm": 8.347633361816406,
      "learning_rate": 3.492407166106878e-05,
      "loss": 0.6769,
      "step": 908
    },
    {
      "epoch": 0.7051978277734678,
      "grad_norm": 11.00367546081543,
      "learning_rate": 3.492123582976092e-05,
      "loss": 0.6006,
      "step": 909
    },
    {
      "epoch": 0.7059736229635376,
      "grad_norm": 9.012520790100098,
      "learning_rate": 3.491834814016249e-05,
      "loss": 0.3612,
      "step": 910
    },
    {
      "epoch": 0.7067494181536075,
      "grad_norm": 9.403765678405762,
      "learning_rate": 3.4915408601829286e-05,
      "loss": 0.7262,
      "step": 911
    },
    {
      "epoch": 0.7075252133436772,
      "grad_norm": 9.686113357543945,
      "learning_rate": 3.491241722448863e-05,
      "loss": 0.4605,
      "step": 912
    },
    {
      "epoch": 0.7083010085337471,
      "grad_norm": 11.69682502746582,
      "learning_rate": 3.4909374018039414e-05,
      "loss": 1.0258,
      "step": 913
    },
    {
      "epoch": 0.7090768037238169,
      "grad_norm": 8.281636238098145,
      "learning_rate": 3.490627899255201e-05,
      "loss": 0.3937,
      "step": 914
    },
    {
      "epoch": 0.7098525989138867,
      "grad_norm": 12.542149543762207,
      "learning_rate": 3.4903132158268305e-05,
      "loss": 1.1565,
      "step": 915
    },
    {
      "epoch": 0.7106283941039565,
      "grad_norm": 14.342009544372559,
      "learning_rate": 3.489993352560161e-05,
      "loss": 1.2102,
      "step": 916
    },
    {
      "epoch": 0.7114041892940264,
      "grad_norm": 15.103821754455566,
      "learning_rate": 3.489668310513663e-05,
      "loss": 1.3208,
      "step": 917
    },
    {
      "epoch": 0.7121799844840963,
      "grad_norm": 8.335806846618652,
      "learning_rate": 3.4893380907629466e-05,
      "loss": 0.4204,
      "step": 918
    },
    {
      "epoch": 0.712955779674166,
      "grad_norm": 7.120835781097412,
      "learning_rate": 3.489002694400755e-05,
      "loss": 0.3666,
      "step": 919
    },
    {
      "epoch": 0.7137315748642359,
      "grad_norm": 12.769718170166016,
      "learning_rate": 3.4886621225369605e-05,
      "loss": 1.2682,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_Qnli-dev_cosine_accuracy": 0.673828125,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8663387298583984,
      "eval_Qnli-dev_cosine_ap": 0.7011581034275928,
      "eval_Qnli-dev_cosine_f1": 0.6677316293929711,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7536342740058899,
      "eval_Qnli-dev_cosine_precision": 0.5358974358974359,
      "eval_Qnli-dev_cosine_recall": 0.885593220338983,
      "eval_Qnli-dev_dot_accuracy": 0.64453125,
      "eval_Qnli-dev_dot_accuracy_threshold": 442.28472900390625,
      "eval_Qnli-dev_dot_ap": 0.6160452811759833,
      "eval_Qnli-dev_dot_f1": 0.6559766763848397,
      "eval_Qnli-dev_dot_f1_threshold": 343.661376953125,
      "eval_Qnli-dev_dot_precision": 0.5,
      "eval_Qnli-dev_dot_recall": 0.9533898305084746,
      "eval_Qnli-dev_euclidean_accuracy": 0.662109375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.209592819213867,
      "eval_Qnli-dev_euclidean_ap": 0.7014673664853852,
      "eval_Qnli-dev_euclidean_f1": 0.6763754045307444,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.89691162109375,
      "eval_Qnli-dev_euclidean_precision": 0.5471204188481675,
      "eval_Qnli-dev_euclidean_recall": 0.885593220338983,
      "eval_Qnli-dev_manhattan_accuracy": 0.66796875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 217.30770874023438,
      "eval_Qnli-dev_manhattan_ap": 0.6991581369945994,
      "eval_Qnli-dev_manhattan_f1": 0.6798029556650246,
      "eval_Qnli-dev_manhattan_f1_threshold": 281.1316833496094,
      "eval_Qnli-dev_manhattan_precision": 0.5549597855227882,
      "eval_Qnli-dev_manhattan_recall": 0.8771186440677966,
      "eval_Qnli-dev_max_accuracy": 0.673828125,
      "eval_Qnli-dev_max_accuracy_threshold": 442.28472900390625,
      "eval_Qnli-dev_max_ap": 0.7014673664853852,
      "eval_Qnli-dev_max_f1": 0.6798029556650246,
      "eval_Qnli-dev_max_f1_threshold": 343.661376953125,
      "eval_Qnli-dev_max_precision": 0.5549597855227882,
      "eval_Qnli-dev_max_recall": 0.9533898305084746,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8784551620483398,
      "eval_allNLI-dev_cosine_ap": 0.5848850964198085,
      "eval_allNLI-dev_cosine_f1": 0.5923076923076924,
      "eval_allNLI-dev_cosine_f1_threshold": 0.767518162727356,
      "eval_allNLI-dev_cosine_precision": 0.4438040345821326,
      "eval_allNLI-dev_cosine_recall": 0.8901734104046243,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 462.3367004394531,
      "eval_allNLI-dev_dot_ap": 0.4753203626546576,
      "eval_allNLI-dev_dot_f1": 0.5555555555555556,
      "eval_allNLI-dev_dot_f1_threshold": 336.5610046386719,
      "eval_allNLI-dev_dot_precision": 0.4087193460490463,
      "eval_allNLI-dev_dot_recall": 0.8670520231213873,
      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.113510131835938,
      "eval_allNLI-dev_euclidean_ap": 0.5863555746391488,
      "eval_allNLI-dev_euclidean_f1": 0.6042553191489363,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.709831237792969,
      "eval_allNLI-dev_euclidean_precision": 0.4781144781144781,
      "eval_allNLI-dev_euclidean_recall": 0.8208092485549133,
      "eval_allNLI-dev_manhattan_accuracy": 0.7109375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 171.8656005859375,
      "eval_allNLI-dev_manhattan_ap": 0.5940185076677719,
      "eval_allNLI-dev_manhattan_f1": 0.6059225512528473,
      "eval_allNLI-dev_manhattan_f1_threshold": 236.40133666992188,
      "eval_allNLI-dev_manhattan_precision": 0.5,
      "eval_allNLI-dev_manhattan_recall": 0.7687861271676301,
      "eval_allNLI-dev_max_accuracy": 0.71484375,
      "eval_allNLI-dev_max_accuracy_threshold": 462.3367004394531,
      "eval_allNLI-dev_max_ap": 0.5940185076677719,
      "eval_allNLI-dev_max_f1": 0.6059225512528473,
      "eval_allNLI-dev_max_f1_threshold": 336.5610046386719,
      "eval_allNLI-dev_max_precision": 0.5,
      "eval_allNLI-dev_max_recall": 0.8901734104046243,
      "eval_sequential_score": 0.7014673664853852,
      "eval_sts-test_pearson_cosine": 0.8255116029658587,
      "eval_sts-test_pearson_dot": 0.7879340794313661,
      "eval_sts-test_pearson_euclidean": 0.8490714081771065,
      "eval_sts-test_pearson_manhattan": 0.8455351279667078,
      "eval_sts-test_pearson_max": 0.8490714081771065,
      "eval_sts-test_spearman_cosine": 0.8540002697188684,
      "eval_sts-test_spearman_dot": 0.7757822250085247,
      "eval_sts-test_spearman_euclidean": 0.843399411915428,
      "eval_sts-test_spearman_manhattan": 0.8418668154665568,
      "eval_sts-test_spearman_max": 0.8540002697188684,
      "eval_vitaminc-pairs_loss": 3.759916305541992,
      "eval_vitaminc-pairs_runtime": 5.5184,
      "eval_vitaminc-pairs_samples_per_second": 23.195,
      "eval_vitaminc-pairs_steps_per_second": 0.362,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_negation-triplets_loss": 1.7734837532043457,
      "eval_negation-triplets_runtime": 1.1074,
      "eval_negation-triplets_samples_per_second": 115.586,
      "eval_negation-triplets_steps_per_second": 1.806,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_scitail-pairs-pos_loss": 0.1350197196006775,
      "eval_scitail-pairs-pos_runtime": 1.3296,
      "eval_scitail-pairs-pos_samples_per_second": 96.271,
      "eval_scitail-pairs-pos_steps_per_second": 1.504,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_scitail-pairs-qa_loss": 0.03005460649728775,
      "eval_scitail-pairs-qa_runtime": 0.7829,
      "eval_scitail-pairs-qa_samples_per_second": 163.486,
      "eval_scitail-pairs-qa_steps_per_second": 2.554,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_xsum-pairs_loss": 0.2775123119354248,
      "eval_xsum-pairs_runtime": 3.9263,
      "eval_xsum-pairs_samples_per_second": 32.601,
      "eval_xsum-pairs_steps_per_second": 0.509,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_sciq_pairs_loss": 0.05456567928195,
      "eval_sciq_pairs_runtime": 5.9974,
      "eval_sciq_pairs_samples_per_second": 21.342,
      "eval_sciq_pairs_steps_per_second": 0.333,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_qasc_pairs_loss": 0.5647321343421936,
      "eval_qasc_pairs_runtime": 0.9092,
      "eval_qasc_pairs_samples_per_second": 140.786,
      "eval_qasc_pairs_steps_per_second": 2.2,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_openbookqa_pairs_loss": 1.345017671585083,
      "eval_openbookqa_pairs_runtime": 0.8787,
      "eval_openbookqa_pairs_samples_per_second": 145.662,
      "eval_openbookqa_pairs_steps_per_second": 2.276,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_msmarco_pairs_loss": 0.5561577677726746,
      "eval_msmarco_pairs_runtime": 1.9887,
      "eval_msmarco_pairs_samples_per_second": 64.365,
      "eval_msmarco_pairs_steps_per_second": 1.006,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_nq_pairs_loss": 1.0891139507293701,
      "eval_nq_pairs_runtime": 3.3527,
      "eval_nq_pairs_samples_per_second": 38.178,
      "eval_nq_pairs_steps_per_second": 0.597,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_trivia_pairs_loss": 1.0408532619476318,
      "eval_trivia_pairs_runtime": 4.492,
      "eval_trivia_pairs_samples_per_second": 28.495,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_gooaq_pairs_loss": 0.8888065814971924,
      "eval_gooaq_pairs_runtime": 1.478,
      "eval_gooaq_pairs_samples_per_second": 86.603,
      "eval_gooaq_pairs_steps_per_second": 1.353,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_paws-pos_loss": 0.04470743238925934,
      "eval_paws-pos_runtime": 1.0293,
      "eval_paws-pos_samples_per_second": 124.362,
      "eval_paws-pos_steps_per_second": 1.943,
      "step": 920
    },
    {
      "epoch": 0.7137315748642359,
      "eval_global_dataset_loss": 0.4433729648590088,
      "eval_global_dataset_runtime": 19.439,
      "eval_global_dataset_samples_per_second": 21.4,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 920
    },
    {
      "epoch": 0.7145073700543056,
      "grad_norm": 10.645776748657227,
      "learning_rate": 3.488316376298563e-05,
      "loss": 0.732,
      "step": 921
    },
    {
      "epoch": 0.7152831652443755,
      "grad_norm": 11.578245162963867,
      "learning_rate": 3.4879654568296846e-05,
      "loss": 1.0932,
      "step": 922
    },
    {
      "epoch": 0.7160589604344453,
      "grad_norm": 13.087963104248047,
      "learning_rate": 3.4876093652915666e-05,
      "loss": 1.0546,
      "step": 923
    },
    {
      "epoch": 0.7168347556245152,
      "grad_norm": 6.977993488311768,
      "learning_rate": 3.487248102862565e-05,
      "loss": 0.4105,
      "step": 924
    },
    {
      "epoch": 0.7176105508145849,
      "grad_norm": 7.872547626495361,
      "learning_rate": 3.486881670738147e-05,
      "loss": 0.4764,
      "step": 925
    },
    {
      "epoch": 0.7183863460046548,
      "grad_norm": 2.0418319702148438,
      "learning_rate": 3.4865100701308877e-05,
      "loss": 0.0551,
      "step": 926
    },
    {
      "epoch": 0.7191621411947245,
      "grad_norm": 10.137189865112305,
      "learning_rate": 3.486133302270465e-05,
      "loss": 0.6324,
      "step": 927
    },
    {
      "epoch": 0.7199379363847944,
      "grad_norm": 13.254183769226074,
      "learning_rate": 3.485751368403656e-05,
      "loss": 1.1658,
      "step": 928
    },
    {
      "epoch": 0.7207137315748642,
      "grad_norm": 8.744871139526367,
      "learning_rate": 3.485364269794333e-05,
      "loss": 0.3725,
      "step": 929
    },
    {
      "epoch": 0.721489526764934,
      "grad_norm": 12.860345840454102,
      "learning_rate": 3.484972007723457e-05,
      "loss": 1.0303,
      "step": 930
    },
    {
      "epoch": 0.7222653219550039,
      "grad_norm": 0.6916890740394592,
      "learning_rate": 3.48457458348908e-05,
      "loss": 0.0143,
      "step": 931
    },
    {
      "epoch": 0.7230411171450737,
      "grad_norm": 8.768937110900879,
      "learning_rate": 3.484171998406332e-05,
      "loss": 0.6967,
      "step": 932
    },
    {
      "epoch": 0.7238169123351436,
      "grad_norm": 12.096138000488281,
      "learning_rate": 3.483764253807425e-05,
      "loss": 1.0323,
      "step": 933
    },
    {
      "epoch": 0.7245927075252133,
      "grad_norm": 11.769198417663574,
      "learning_rate": 3.48335135104164e-05,
      "loss": 0.5981,
      "step": 934
    },
    {
      "epoch": 0.7253685027152832,
      "grad_norm": 7.922912120819092,
      "learning_rate": 3.4829332914753316e-05,
      "loss": 0.4261,
      "step": 935
    },
    {
      "epoch": 0.726144297905353,
      "grad_norm": 17.935937881469727,
      "learning_rate": 3.4825100764919154e-05,
      "loss": 1.6686,
      "step": 936
    },
    {
      "epoch": 0.7269200930954228,
      "grad_norm": 12.311088562011719,
      "learning_rate": 3.4820817074918685e-05,
      "loss": 0.7292,
      "step": 937
    },
    {
      "epoch": 0.7276958882854926,
      "grad_norm": 7.077203273773193,
      "learning_rate": 3.4816481858927244e-05,
      "loss": 0.5332,
      "step": 938
    },
    {
      "epoch": 0.7284716834755625,
      "grad_norm": 2.056474208831787,
      "learning_rate": 3.481209513129064e-05,
      "loss": 0.0532,
      "step": 939
    },
    {
      "epoch": 0.7292474786656322,
      "grad_norm": 10.370635032653809,
      "learning_rate": 3.480765690652518e-05,
      "loss": 0.7376,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_Qnli-dev_cosine_accuracy": 0.6796875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8280144929885864,
      "eval_Qnli-dev_cosine_ap": 0.7058509042895263,
      "eval_Qnli-dev_cosine_f1": 0.6778625954198474,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7085098028182983,
      "eval_Qnli-dev_cosine_precision": 0.5298329355608592,
      "eval_Qnli-dev_cosine_recall": 0.940677966101695,
      "eval_Qnli-dev_dot_accuracy": 0.640625,
      "eval_Qnli-dev_dot_accuracy_threshold": 443.646484375,
      "eval_Qnli-dev_dot_ap": 0.6044636556615453,
      "eval_Qnli-dev_dot_f1": 0.663677130044843,
      "eval_Qnli-dev_dot_f1_threshold": 345.868896484375,
      "eval_Qnli-dev_dot_precision": 0.5127020785219399,
      "eval_Qnli-dev_dot_recall": 0.940677966101695,
      "eval_Qnli-dev_euclidean_accuracy": 0.669921875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.699701309204102,
      "eval_Qnli-dev_euclidean_ap": 0.7061007571201711,
      "eval_Qnli-dev_euclidean_f1": 0.6782334384858044,
      "eval_Qnli-dev_euclidean_f1_threshold": 17.033733367919922,
      "eval_Qnli-dev_euclidean_precision": 0.5402010050251256,
      "eval_Qnli-dev_euclidean_recall": 0.9110169491525424,
      "eval_Qnli-dev_manhattan_accuracy": 0.666015625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 226.12686157226562,
      "eval_Qnli-dev_manhattan_ap": 0.7025844391350389,
      "eval_Qnli-dev_manhattan_f1": 0.6740157480314961,
      "eval_Qnli-dev_manhattan_f1_threshold": 303.73370361328125,
      "eval_Qnli-dev_manhattan_precision": 0.5363408521303258,
      "eval_Qnli-dev_manhattan_recall": 0.9067796610169492,
      "eval_Qnli-dev_max_accuracy": 0.6796875,
      "eval_Qnli-dev_max_accuracy_threshold": 443.646484375,
      "eval_Qnli-dev_max_ap": 0.7061007571201711,
      "eval_Qnli-dev_max_f1": 0.6782334384858044,
      "eval_Qnli-dev_max_f1_threshold": 345.868896484375,
      "eval_Qnli-dev_max_precision": 0.5402010050251256,
      "eval_Qnli-dev_max_recall": 0.940677966101695,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9065077304840088,
      "eval_allNLI-dev_cosine_ap": 0.57775990915654,
      "eval_allNLI-dev_cosine_f1": 0.5841121495327103,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8144516348838806,
      "eval_allNLI-dev_cosine_precision": 0.49019607843137253,
      "eval_allNLI-dev_cosine_recall": 0.7225433526011561,
      "eval_allNLI-dev_dot_accuracy": 0.671875,
      "eval_allNLI-dev_dot_accuracy_threshold": 449.16064453125,
      "eval_allNLI-dev_dot_ap": 0.45729689491160724,
      "eval_allNLI-dev_dot_f1": 0.5467128027681661,
      "eval_allNLI-dev_dot_f1_threshold": 313.206787109375,
      "eval_allNLI-dev_dot_precision": 0.39012345679012345,
      "eval_allNLI-dev_dot_recall": 0.9132947976878613,
      "eval_allNLI-dev_euclidean_accuracy": 0.71875,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.180174827575684,
      "eval_allNLI-dev_euclidean_ap": 0.5803810871730595,
      "eval_allNLI-dev_euclidean_f1": 0.5927505330490405,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.028618812561035,
      "eval_allNLI-dev_euclidean_precision": 0.46959459459459457,
      "eval_allNLI-dev_euclidean_recall": 0.8034682080924855,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 167.8479766845703,
      "eval_allNLI-dev_manhattan_ap": 0.5844999705183276,
      "eval_allNLI-dev_manhattan_f1": 0.6053811659192826,
      "eval_allNLI-dev_manhattan_f1_threshold": 238.28770446777344,
      "eval_allNLI-dev_manhattan_precision": 0.4945054945054945,
      "eval_allNLI-dev_manhattan_recall": 0.7803468208092486,
      "eval_allNLI-dev_max_accuracy": 0.71875,
      "eval_allNLI-dev_max_accuracy_threshold": 449.16064453125,
      "eval_allNLI-dev_max_ap": 0.5844999705183276,
      "eval_allNLI-dev_max_f1": 0.6053811659192826,
      "eval_allNLI-dev_max_f1_threshold": 313.206787109375,
      "eval_allNLI-dev_max_precision": 0.4945054945054945,
      "eval_allNLI-dev_max_recall": 0.9132947976878613,
      "eval_sequential_score": 0.7061007571201711,
      "eval_sts-test_pearson_cosine": 0.8258559801510045,
      "eval_sts-test_pearson_dot": 0.7768522247641632,
      "eval_sts-test_pearson_euclidean": 0.8539592579225929,
      "eval_sts-test_pearson_manhattan": 0.8523939672474321,
      "eval_sts-test_pearson_max": 0.8539592579225929,
      "eval_sts-test_spearman_cosine": 0.8550871883555428,
      "eval_sts-test_spearman_dot": 0.7621918934416161,
      "eval_sts-test_spearman_euclidean": 0.8479704400077298,
      "eval_sts-test_spearman_manhattan": 0.8472401441730836,
      "eval_sts-test_spearman_max": 0.8550871883555428,
      "eval_vitaminc-pairs_loss": 3.7480885982513428,
      "eval_vitaminc-pairs_runtime": 5.4843,
      "eval_vitaminc-pairs_samples_per_second": 23.339,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_negation-triplets_loss": 1.8641772270202637,
      "eval_negation-triplets_runtime": 1.0931,
      "eval_negation-triplets_samples_per_second": 117.096,
      "eval_negation-triplets_steps_per_second": 1.83,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_scitail-pairs-pos_loss": 0.17913472652435303,
      "eval_scitail-pairs-pos_runtime": 1.3209,
      "eval_scitail-pairs-pos_samples_per_second": 96.905,
      "eval_scitail-pairs-pos_steps_per_second": 1.514,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_scitail-pairs-qa_loss": 0.03495565056800842,
      "eval_scitail-pairs-qa_runtime": 0.7864,
      "eval_scitail-pairs-qa_samples_per_second": 162.763,
      "eval_scitail-pairs-qa_steps_per_second": 2.543,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_xsum-pairs_loss": 0.28637024760246277,
      "eval_xsum-pairs_runtime": 3.9477,
      "eval_xsum-pairs_samples_per_second": 32.424,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_sciq_pairs_loss": 0.07482024282217026,
      "eval_sciq_pairs_runtime": 5.997,
      "eval_sciq_pairs_samples_per_second": 21.344,
      "eval_sciq_pairs_steps_per_second": 0.333,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_qasc_pairs_loss": 0.542219877243042,
      "eval_qasc_pairs_runtime": 0.9198,
      "eval_qasc_pairs_samples_per_second": 139.162,
      "eval_qasc_pairs_steps_per_second": 2.174,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_openbookqa_pairs_loss": 1.573500156402588,
      "eval_openbookqa_pairs_runtime": 0.8794,
      "eval_openbookqa_pairs_samples_per_second": 145.557,
      "eval_openbookqa_pairs_steps_per_second": 2.274,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_msmarco_pairs_loss": 0.5651401281356812,
      "eval_msmarco_pairs_runtime": 1.9828,
      "eval_msmarco_pairs_samples_per_second": 64.556,
      "eval_msmarco_pairs_steps_per_second": 1.009,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_nq_pairs_loss": 0.9907878637313843,
      "eval_nq_pairs_runtime": 3.3483,
      "eval_nq_pairs_samples_per_second": 38.228,
      "eval_nq_pairs_steps_per_second": 0.597,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_trivia_pairs_loss": 1.112267255783081,
      "eval_trivia_pairs_runtime": 4.4813,
      "eval_trivia_pairs_samples_per_second": 28.563,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_gooaq_pairs_loss": 0.874494194984436,
      "eval_gooaq_pairs_runtime": 1.4752,
      "eval_gooaq_pairs_samples_per_second": 86.77,
      "eval_gooaq_pairs_steps_per_second": 1.356,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_paws-pos_loss": 0.04339267686009407,
      "eval_paws-pos_runtime": 1.041,
      "eval_paws-pos_samples_per_second": 122.963,
      "eval_paws-pos_steps_per_second": 1.921,
      "step": 940
    },
    {
      "epoch": 0.7292474786656322,
      "eval_global_dataset_loss": 0.45819559693336487,
      "eval_global_dataset_runtime": 19.4273,
      "eval_global_dataset_samples_per_second": 21.413,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 940
    },
    {
      "epoch": 0.7300232738557021,
      "grad_norm": 15.412274360656738,
      "learning_rate": 3.480316719931757e-05,
      "loss": 1.225,
      "step": 941
    },
    {
      "epoch": 0.730799069045772,
      "grad_norm": 12.429174423217773,
      "learning_rate": 3.479862602452486e-05,
      "loss": 1.3277,
      "step": 942
    },
    {
      "epoch": 0.7315748642358417,
      "grad_norm": 13.888239860534668,
      "learning_rate": 3.479403339717442e-05,
      "loss": 1.3168,
      "step": 943
    },
    {
      "epoch": 0.7323506594259116,
      "grad_norm": 7.709323406219482,
      "learning_rate": 3.47893893324639e-05,
      "loss": 0.4183,
      "step": 944
    },
    {
      "epoch": 0.7331264546159814,
      "grad_norm": 8.998419761657715,
      "learning_rate": 3.4784693845761165e-05,
      "loss": 0.3764,
      "step": 945
    },
    {
      "epoch": 0.7339022498060512,
      "grad_norm": 9.600420951843262,
      "learning_rate": 3.4779946952604215e-05,
      "loss": 0.5638,
      "step": 946
    },
    {
      "epoch": 0.734678044996121,
      "grad_norm": 6.363062381744385,
      "learning_rate": 3.477514866870118e-05,
      "loss": 0.3658,
      "step": 947
    },
    {
      "epoch": 0.7354538401861909,
      "grad_norm": 7.470354080200195,
      "learning_rate": 3.477029900993025e-05,
      "loss": 0.3867,
      "step": 948
    },
    {
      "epoch": 0.7362296353762606,
      "grad_norm": 8.215919494628906,
      "learning_rate": 3.4765397992339616e-05,
      "loss": 0.5428,
      "step": 949
    },
    {
      "epoch": 0.7370054305663305,
      "grad_norm": 1.1038960218429565,
      "learning_rate": 3.476044563214742e-05,
      "loss": 0.0486,
      "step": 950
    },
    {
      "epoch": 0.7377812257564003,
      "grad_norm": 17.344226837158203,
      "learning_rate": 3.475544194574171e-05,
      "loss": 2.6881,
      "step": 951
    },
    {
      "epoch": 0.7385570209464701,
      "grad_norm": 6.872907638549805,
      "learning_rate": 3.4750386949680384e-05,
      "loss": 0.314,
      "step": 952
    },
    {
      "epoch": 0.73933281613654,
      "grad_norm": 6.5277605056762695,
      "learning_rate": 3.474528066069112e-05,
      "loss": 0.2931,
      "step": 953
    },
    {
      "epoch": 0.7401086113266098,
      "grad_norm": 7.285345077514648,
      "learning_rate": 3.474012309567134e-05,
      "loss": 0.3684,
      "step": 954
    },
    {
      "epoch": 0.7408844065166796,
      "grad_norm": 9.644484519958496,
      "learning_rate": 3.4734914271688125e-05,
      "loss": 0.6858,
      "step": 955
    },
    {
      "epoch": 0.7416602017067494,
      "grad_norm": 8.192893981933594,
      "learning_rate": 3.4729654205978214e-05,
      "loss": 0.425,
      "step": 956
    },
    {
      "epoch": 0.7424359968968193,
      "grad_norm": 6.8188910484313965,
      "learning_rate": 3.472434291594789e-05,
      "loss": 0.4366,
      "step": 957
    },
    {
      "epoch": 0.743211792086889,
      "grad_norm": 7.57077693939209,
      "learning_rate": 3.471898041917294e-05,
      "loss": 0.3495,
      "step": 958
    },
    {
      "epoch": 0.7439875872769589,
      "grad_norm": 1.092852234840393,
      "learning_rate": 3.471356673339861e-05,
      "loss": 0.0577,
      "step": 959
    },
    {
      "epoch": 0.7447633824670287,
      "grad_norm": 6.401102066040039,
      "learning_rate": 3.470810187653955e-05,
      "loss": 0.4148,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_Qnli-dev_cosine_accuracy": 0.685546875,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8656002283096313,
      "eval_Qnli-dev_cosine_ap": 0.7255235372298487,
      "eval_Qnli-dev_cosine_f1": 0.674496644295302,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7862218022346497,
      "eval_Qnli-dev_cosine_precision": 0.5583333333333333,
      "eval_Qnli-dev_cosine_recall": 0.8516949152542372,
      "eval_Qnli-dev_dot_accuracy": 0.642578125,
      "eval_Qnli-dev_dot_accuracy_threshold": 477.6988525390625,
      "eval_Qnli-dev_dot_ap": 0.6173507160125875,
      "eval_Qnli-dev_dot_f1": 0.6688102893890675,
      "eval_Qnli-dev_dot_f1_threshold": 387.66192626953125,
      "eval_Qnli-dev_dot_precision": 0.538860103626943,
      "eval_Qnli-dev_dot_recall": 0.8813559322033898,
      "eval_Qnli-dev_euclidean_accuracy": 0.6796875,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.54013442993164,
      "eval_Qnli-dev_euclidean_ap": 0.7226780626222544,
      "eval_Qnli-dev_euclidean_f1": 0.6774774774774774,
      "eval_Qnli-dev_euclidean_f1_threshold": 14.36434555053711,
      "eval_Qnli-dev_euclidean_precision": 0.5893416927899686,
      "eval_Qnli-dev_euclidean_recall": 0.7966101694915254,
      "eval_Qnli-dev_manhattan_accuracy": 0.673828125,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 212.01638793945312,
      "eval_Qnli-dev_manhattan_ap": 0.7174460312641439,
      "eval_Qnli-dev_manhattan_f1": 0.6766355140186916,
      "eval_Qnli-dev_manhattan_f1_threshold": 251.17071533203125,
      "eval_Qnli-dev_manhattan_precision": 0.6053511705685619,
      "eval_Qnli-dev_manhattan_recall": 0.7669491525423728,
      "eval_Qnli-dev_max_accuracy": 0.685546875,
      "eval_Qnli-dev_max_accuracy_threshold": 477.6988525390625,
      "eval_Qnli-dev_max_ap": 0.7255235372298487,
      "eval_Qnli-dev_max_f1": 0.6774774774774774,
      "eval_Qnli-dev_max_f1_threshold": 387.66192626953125,
      "eval_Qnli-dev_max_precision": 0.6053511705685619,
      "eval_Qnli-dev_max_recall": 0.8813559322033898,
      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9092354774475098,
      "eval_allNLI-dev_cosine_ap": 0.5890921194908372,
      "eval_allNLI-dev_cosine_f1": 0.6150341685649203,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8473508358001709,
      "eval_allNLI-dev_cosine_precision": 0.5075187969924813,
      "eval_allNLI-dev_cosine_recall": 0.7803468208092486,
      "eval_allNLI-dev_dot_accuracy": 0.6796875,
      "eval_allNLI-dev_dot_accuracy_threshold": 500.93719482421875,
      "eval_allNLI-dev_dot_ap": 0.47197649007439835,
      "eval_allNLI-dev_dot_f1": 0.5467625899280575,
      "eval_allNLI-dev_dot_f1_threshold": 384.30609130859375,
      "eval_allNLI-dev_dot_precision": 0.3968668407310705,
      "eval_allNLI-dev_dot_recall": 0.8786127167630058,
      "eval_allNLI-dev_euclidean_accuracy": 0.71484375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.310173034667969,
      "eval_allNLI-dev_euclidean_ap": 0.5891813531307,
      "eval_allNLI-dev_euclidean_f1": 0.6146993318485523,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.670351028442383,
      "eval_allNLI-dev_euclidean_precision": 0.5,
      "eval_allNLI-dev_euclidean_recall": 0.7976878612716763,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 178.8214569091797,
      "eval_allNLI-dev_manhattan_ap": 0.5960774566459738,
      "eval_allNLI-dev_manhattan_f1": 0.6272727272727273,
      "eval_allNLI-dev_manhattan_f1_threshold": 223.1829833984375,
      "eval_allNLI-dev_manhattan_precision": 0.5168539325842697,
      "eval_allNLI-dev_manhattan_recall": 0.7976878612716763,
      "eval_allNLI-dev_max_accuracy": 0.71484375,
      "eval_allNLI-dev_max_accuracy_threshold": 500.93719482421875,
      "eval_allNLI-dev_max_ap": 0.5960774566459738,
      "eval_allNLI-dev_max_f1": 0.6272727272727273,
      "eval_allNLI-dev_max_f1_threshold": 384.30609130859375,
      "eval_allNLI-dev_max_precision": 0.5168539325842697,
      "eval_allNLI-dev_max_recall": 0.8786127167630058,
      "eval_sequential_score": 0.7255235372298487,
      "eval_sts-test_pearson_cosine": 0.818045462157344,
      "eval_sts-test_pearson_dot": 0.7472446957354837,
      "eval_sts-test_pearson_euclidean": 0.8461722565508376,
      "eval_sts-test_pearson_manhattan": 0.8433768937096828,
      "eval_sts-test_pearson_max": 0.8461722565508376,
      "eval_sts-test_spearman_cosine": 0.8506462074288443,
      "eval_sts-test_spearman_dot": 0.7355198283935123,
      "eval_sts-test_spearman_euclidean": 0.8425965295348049,
      "eval_sts-test_spearman_manhattan": 0.841473630883972,
      "eval_sts-test_spearman_max": 0.8506462074288443,
      "eval_vitaminc-pairs_loss": 4.06262731552124,
      "eval_vitaminc-pairs_runtime": 5.4867,
      "eval_vitaminc-pairs_samples_per_second": 23.329,
      "eval_vitaminc-pairs_steps_per_second": 0.365,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_negation-triplets_loss": 1.7792047262191772,
      "eval_negation-triplets_runtime": 1.0664,
      "eval_negation-triplets_samples_per_second": 120.033,
      "eval_negation-triplets_steps_per_second": 1.876,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_scitail-pairs-pos_loss": 0.17724700272083282,
      "eval_scitail-pairs-pos_runtime": 1.2551,
      "eval_scitail-pairs-pos_samples_per_second": 101.986,
      "eval_scitail-pairs-pos_steps_per_second": 1.594,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_scitail-pairs-qa_loss": 0.03478042036294937,
      "eval_scitail-pairs-qa_runtime": 0.7709,
      "eval_scitail-pairs-qa_samples_per_second": 166.034,
      "eval_scitail-pairs-qa_steps_per_second": 2.594,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_xsum-pairs_loss": 0.29500454664230347,
      "eval_xsum-pairs_runtime": 3.9374,
      "eval_xsum-pairs_samples_per_second": 32.508,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_sciq_pairs_loss": 0.061557844281196594,
      "eval_sciq_pairs_runtime": 6.0558,
      "eval_sciq_pairs_samples_per_second": 21.137,
      "eval_sciq_pairs_steps_per_second": 0.33,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_qasc_pairs_loss": 0.5219850540161133,
      "eval_qasc_pairs_runtime": 0.9254,
      "eval_qasc_pairs_samples_per_second": 138.314,
      "eval_qasc_pairs_steps_per_second": 2.161,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_openbookqa_pairs_loss": 1.3571869134902954,
      "eval_openbookqa_pairs_runtime": 0.8718,
      "eval_openbookqa_pairs_samples_per_second": 146.816,
      "eval_openbookqa_pairs_steps_per_second": 2.294,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_msmarco_pairs_loss": 0.5442098379135132,
      "eval_msmarco_pairs_runtime": 1.9906,
      "eval_msmarco_pairs_samples_per_second": 64.301,
      "eval_msmarco_pairs_steps_per_second": 1.005,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_nq_pairs_loss": 1.0508705377578735,
      "eval_nq_pairs_runtime": 3.3401,
      "eval_nq_pairs_samples_per_second": 38.322,
      "eval_nq_pairs_steps_per_second": 0.599,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_trivia_pairs_loss": 1.0006734132766724,
      "eval_trivia_pairs_runtime": 4.4933,
      "eval_trivia_pairs_samples_per_second": 28.487,
      "eval_trivia_pairs_steps_per_second": 0.445,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_gooaq_pairs_loss": 0.7926682829856873,
      "eval_gooaq_pairs_runtime": 1.4732,
      "eval_gooaq_pairs_samples_per_second": 86.888,
      "eval_gooaq_pairs_steps_per_second": 1.358,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_paws-pos_loss": 0.046479757875204086,
      "eval_paws-pos_runtime": 1.045,
      "eval_paws-pos_samples_per_second": 122.487,
      "eval_paws-pos_steps_per_second": 1.914,
      "step": 960
    },
    {
      "epoch": 0.7447633824670287,
      "eval_global_dataset_loss": 0.4857000410556793,
      "eval_global_dataset_runtime": 19.4377,
      "eval_global_dataset_samples_per_second": 21.402,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 960
    },
    {
      "epoch": 0.7455391776570985,
      "grad_norm": 11.5498628616333,
      "learning_rate": 3.47025858666797e-05,
      "loss": 1.0169,
      "step": 961
    },
    {
      "epoch": 0.7463149728471683,
      "grad_norm": 13.27639389038086,
      "learning_rate": 3.469701872207233e-05,
      "loss": 1.6831,
      "step": 962
    },
    {
      "epoch": 0.7470907680372382,
      "grad_norm": 12.058984756469727,
      "learning_rate": 3.469140046113987e-05,
      "loss": 1.1021,
      "step": 963
    },
    {
      "epoch": 0.747866563227308,
      "grad_norm": 10.550564765930176,
      "learning_rate": 3.468573110247395e-05,
      "loss": 1.0278,
      "step": 964
    },
    {
      "epoch": 0.7486423584173778,
      "grad_norm": 11.664640426635742,
      "learning_rate": 3.468001066483524e-05,
      "loss": 0.9023,
      "step": 965
    },
    {
      "epoch": 0.7494181536074477,
      "grad_norm": 7.251794338226318,
      "learning_rate": 3.467423916715347e-05,
      "loss": 0.3945,
      "step": 966
    },
    {
      "epoch": 0.7501939487975174,
      "grad_norm": 14.326492309570312,
      "learning_rate": 3.466841662852732e-05,
      "loss": 2.3776,
      "step": 967
    },
    {
      "epoch": 0.7509697439875873,
      "grad_norm": 7.800229549407959,
      "learning_rate": 3.4662543068224384e-05,
      "loss": 0.2596,
      "step": 968
    },
    {
      "epoch": 0.7517455391776571,
      "grad_norm": 9.339960098266602,
      "learning_rate": 3.465661850568109e-05,
      "loss": 0.8079,
      "step": 969
    },
    {
      "epoch": 0.752521334367727,
      "grad_norm": 11.21225643157959,
      "learning_rate": 3.4650642960502624e-05,
      "loss": 1.156,
      "step": 970
    },
    {
      "epoch": 0.7532971295577967,
      "grad_norm": 8.088404655456543,
      "learning_rate": 3.4644616452462904e-05,
      "loss": 0.6678,
      "step": 971
    },
    {
      "epoch": 0.7540729247478666,
      "grad_norm": 10.209814071655273,
      "learning_rate": 3.463853900150447e-05,
      "loss": 0.7599,
      "step": 972
    },
    {
      "epoch": 0.7548487199379363,
      "grad_norm": 9.69403076171875,
      "learning_rate": 3.463241062773845e-05,
      "loss": 0.6048,
      "step": 973
    },
    {
      "epoch": 0.7556245151280062,
      "grad_norm": 15.4074125289917,
      "learning_rate": 3.4626231351444495e-05,
      "loss": 1.2722,
      "step": 974
    },
    {
      "epoch": 0.756400310318076,
      "grad_norm": 14.900464057922363,
      "learning_rate": 3.462000119307068e-05,
      "loss": 1.3419,
      "step": 975
    },
    {
      "epoch": 0.7571761055081458,
      "grad_norm": 17.61496353149414,
      "learning_rate": 3.4613720173233456e-05,
      "loss": 2.6248,
      "step": 976
    },
    {
      "epoch": 0.7579519006982157,
      "grad_norm": 14.07415771484375,
      "learning_rate": 3.460738831271759e-05,
      "loss": 1.2239,
      "step": 977
    },
    {
      "epoch": 0.7587276958882855,
      "grad_norm": 4.216908931732178,
      "learning_rate": 3.460100563247609e-05,
      "loss": 0.2392,
      "step": 978
    },
    {
      "epoch": 0.7595034910783554,
      "grad_norm": 11.05616569519043,
      "learning_rate": 3.4594572153630126e-05,
      "loss": 1.0528,
      "step": 979
    },
    {
      "epoch": 0.7602792862684251,
      "grad_norm": 11.93682861328125,
      "learning_rate": 3.4588087897468975e-05,
      "loss": 1.3056,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_Qnli-dev_cosine_accuracy": 0.66015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8404420614242554,
      "eval_Qnli-dev_cosine_ap": 0.6941312390718141,
      "eval_Qnli-dev_cosine_f1": 0.6666666666666666,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7989790439605713,
      "eval_Qnli-dev_cosine_precision": 0.5568181818181818,
      "eval_Qnli-dev_cosine_recall": 0.8305084745762712,
      "eval_Qnli-dev_dot_accuracy": 0.61328125,
      "eval_Qnli-dev_dot_accuracy_threshold": 444.3583984375,
      "eval_Qnli-dev_dot_ap": 0.5618087057330504,
      "eval_Qnli-dev_dot_f1": 0.6618075801749271,
      "eval_Qnli-dev_dot_f1_threshold": 359.6221923828125,
      "eval_Qnli-dev_dot_precision": 0.5044444444444445,
      "eval_Qnli-dev_dot_recall": 0.961864406779661,
      "eval_Qnli-dev_euclidean_accuracy": 0.6640625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.234148025512695,
      "eval_Qnli-dev_euclidean_ap": 0.6923964385935938,
      "eval_Qnli-dev_euclidean_f1": 0.6655791190864601,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.007804870605469,
      "eval_Qnli-dev_euclidean_precision": 0.5411140583554377,
      "eval_Qnli-dev_euclidean_recall": 0.864406779661017,
      "eval_Qnli-dev_manhattan_accuracy": 0.654296875,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 211.71136474609375,
      "eval_Qnli-dev_manhattan_ap": 0.6901108974358061,
      "eval_Qnli-dev_manhattan_f1": 0.6688741721854304,
      "eval_Qnli-dev_manhattan_f1_threshold": 263.3021240234375,
      "eval_Qnli-dev_manhattan_precision": 0.5489130434782609,
      "eval_Qnli-dev_manhattan_recall": 0.8559322033898306,
      "eval_Qnli-dev_max_accuracy": 0.6640625,
      "eval_Qnli-dev_max_accuracy_threshold": 444.3583984375,
      "eval_Qnli-dev_max_ap": 0.6941312390718141,
      "eval_Qnli-dev_max_f1": 0.6688741721854304,
      "eval_Qnli-dev_max_f1_threshold": 359.6221923828125,
      "eval_Qnli-dev_max_precision": 0.5568181818181818,
      "eval_Qnli-dev_max_recall": 0.961864406779661,
      "eval_allNLI-dev_cosine_accuracy": 0.712890625,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9104657173156738,
      "eval_allNLI-dev_cosine_ap": 0.5779393990460262,
      "eval_allNLI-dev_cosine_f1": 0.5919661733615224,
      "eval_allNLI-dev_cosine_f1_threshold": 0.841463565826416,
      "eval_allNLI-dev_cosine_precision": 0.4666666666666667,
      "eval_allNLI-dev_cosine_recall": 0.8092485549132948,
      "eval_allNLI-dev_dot_accuracy": 0.669921875,
      "eval_allNLI-dev_dot_accuracy_threshold": 516.3771362304688,
      "eval_allNLI-dev_dot_ap": 0.45016307963080104,
      "eval_allNLI-dev_dot_f1": 0.5376712328767123,
      "eval_allNLI-dev_dot_f1_threshold": 374.87420654296875,
      "eval_allNLI-dev_dot_precision": 0.3819951338199513,
      "eval_allNLI-dev_dot_recall": 0.9075144508670521,
      "eval_allNLI-dev_euclidean_accuracy": 0.708984375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.567673683166504,
      "eval_allNLI-dev_euclidean_ap": 0.5792851643715327,
      "eval_allNLI-dev_euclidean_f1": 0.6013071895424836,
      "eval_allNLI-dev_euclidean_f1_threshold": 12.404951095581055,
      "eval_allNLI-dev_euclidean_precision": 0.4825174825174825,
      "eval_allNLI-dev_euclidean_recall": 0.7976878612716763,
      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 176.902099609375,
      "eval_allNLI-dev_manhattan_ap": 0.5874153676959651,
      "eval_allNLI-dev_manhattan_f1": 0.6117647058823529,
      "eval_allNLI-dev_manhattan_f1_threshold": 209.28500366210938,
      "eval_allNLI-dev_manhattan_precision": 0.5158730158730159,
      "eval_allNLI-dev_manhattan_recall": 0.7514450867052023,
      "eval_allNLI-dev_max_accuracy": 0.71484375,
      "eval_allNLI-dev_max_accuracy_threshold": 516.3771362304688,
      "eval_allNLI-dev_max_ap": 0.5874153676959651,
      "eval_allNLI-dev_max_f1": 0.6117647058823529,
      "eval_allNLI-dev_max_f1_threshold": 374.87420654296875,
      "eval_allNLI-dev_max_precision": 0.5158730158730159,
      "eval_allNLI-dev_max_recall": 0.9075144508670521,
      "eval_sequential_score": 0.6941312390718141,
      "eval_sts-test_pearson_cosine": 0.8177811310172752,
      "eval_sts-test_pearson_dot": 0.7335788831179144,
      "eval_sts-test_pearson_euclidean": 0.850014522826015,
      "eval_sts-test_pearson_manhattan": 0.848001330484057,
      "eval_sts-test_pearson_max": 0.850014522826015,
      "eval_sts-test_spearman_cosine": 0.8537648333326882,
      "eval_sts-test_spearman_dot": 0.7230402678855996,
      "eval_sts-test_spearman_euclidean": 0.8465784520221504,
      "eval_sts-test_spearman_manhattan": 0.8451639094008296,
      "eval_sts-test_spearman_max": 0.8537648333326882,
      "eval_vitaminc-pairs_loss": 3.625579357147217,
      "eval_vitaminc-pairs_runtime": 5.5175,
      "eval_vitaminc-pairs_samples_per_second": 23.199,
      "eval_vitaminc-pairs_steps_per_second": 0.362,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_negation-triplets_loss": 1.7572097778320312,
      "eval_negation-triplets_runtime": 1.1154,
      "eval_negation-triplets_samples_per_second": 114.752,
      "eval_negation-triplets_steps_per_second": 1.793,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_scitail-pairs-pos_loss": 0.16017776727676392,
      "eval_scitail-pairs-pos_runtime": 1.3365,
      "eval_scitail-pairs-pos_samples_per_second": 95.774,
      "eval_scitail-pairs-pos_steps_per_second": 1.496,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_scitail-pairs-qa_loss": 0.04132052883505821,
      "eval_scitail-pairs-qa_runtime": 0.7902,
      "eval_scitail-pairs-qa_samples_per_second": 161.98,
      "eval_scitail-pairs-qa_steps_per_second": 2.531,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_xsum-pairs_loss": 0.23874011635780334,
      "eval_xsum-pairs_runtime": 3.9414,
      "eval_xsum-pairs_samples_per_second": 32.476,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_sciq_pairs_loss": 0.055444370955228806,
      "eval_sciq_pairs_runtime": 5.9941,
      "eval_sciq_pairs_samples_per_second": 21.354,
      "eval_sciq_pairs_steps_per_second": 0.334,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_qasc_pairs_loss": 0.5690393447875977,
      "eval_qasc_pairs_runtime": 0.9289,
      "eval_qasc_pairs_samples_per_second": 137.793,
      "eval_qasc_pairs_steps_per_second": 2.153,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_openbookqa_pairs_loss": 1.3320801258087158,
      "eval_openbookqa_pairs_runtime": 0.8665,
      "eval_openbookqa_pairs_samples_per_second": 147.721,
      "eval_openbookqa_pairs_steps_per_second": 2.308,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_msmarco_pairs_loss": 0.5957273244857788,
      "eval_msmarco_pairs_runtime": 1.978,
      "eval_msmarco_pairs_samples_per_second": 64.713,
      "eval_msmarco_pairs_steps_per_second": 1.011,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_nq_pairs_loss": 1.0263999700546265,
      "eval_nq_pairs_runtime": 3.3353,
      "eval_nq_pairs_samples_per_second": 38.377,
      "eval_nq_pairs_steps_per_second": 0.6,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_trivia_pairs_loss": 0.9815043807029724,
      "eval_trivia_pairs_runtime": 4.4807,
      "eval_trivia_pairs_samples_per_second": 28.567,
      "eval_trivia_pairs_steps_per_second": 0.446,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_gooaq_pairs_loss": 0.8182553648948669,
      "eval_gooaq_pairs_runtime": 1.4737,
      "eval_gooaq_pairs_samples_per_second": 86.857,
      "eval_gooaq_pairs_steps_per_second": 1.357,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_paws-pos_loss": 0.03923580050468445,
      "eval_paws-pos_runtime": 1.0333,
      "eval_paws-pos_samples_per_second": 123.876,
      "eval_paws-pos_steps_per_second": 1.936,
      "step": 980
    },
    {
      "epoch": 0.7602792862684251,
      "eval_global_dataset_loss": 0.4378804564476013,
      "eval_global_dataset_runtime": 19.4523,
      "eval_global_dataset_samples_per_second": 21.386,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 980
    },
    {
      "epoch": 0.761055081458495,
      "grad_norm": 9.621814727783203,
      "learning_rate": 3.4581552885449926e-05,
      "loss": 0.8806,
      "step": 981
    },
    {
      "epoch": 0.7618308766485647,
      "grad_norm": 8.521477699279785,
      "learning_rate": 3.457496713919825e-05,
      "loss": 0.6343,
      "step": 982
    },
    {
      "epoch": 0.7626066718386346,
      "grad_norm": 7.55567741394043,
      "learning_rate": 3.4568330680507104e-05,
      "loss": 0.9935,
      "step": 983
    },
    {
      "epoch": 0.7633824670287044,
      "grad_norm": 7.183990478515625,
      "learning_rate": 3.456164353133743e-05,
      "loss": 0.5072,
      "step": 984
    },
    {
      "epoch": 0.7641582622187743,
      "grad_norm": 12.03846263885498,
      "learning_rate": 3.455490571381794e-05,
      "loss": 1.1407,
      "step": 985
    },
    {
      "epoch": 0.764934057408844,
      "grad_norm": 9.04784870147705,
      "learning_rate": 3.4548117250245e-05,
      "loss": 0.9667,
      "step": 986
    },
    {
      "epoch": 0.7657098525989139,
      "grad_norm": 14.017303466796875,
      "learning_rate": 3.454127816308259e-05,
      "loss": 1.3694,
      "step": 987
    },
    {
      "epoch": 0.7664856477889838,
      "grad_norm": 7.459906578063965,
      "learning_rate": 3.453438847496218e-05,
      "loss": 0.4272,
      "step": 988
    },
    {
      "epoch": 0.7672614429790535,
      "grad_norm": 5.984421730041504,
      "learning_rate": 3.452744820868271e-05,
      "loss": 0.3278,
      "step": 989
    },
    {
      "epoch": 0.7680372381691234,
      "grad_norm": 5.240382194519043,
      "learning_rate": 3.452045738721049e-05,
      "loss": 0.3453,
      "step": 990
    },
    {
      "epoch": 0.7688130333591932,
      "grad_norm": 8.625643730163574,
      "learning_rate": 3.4513416033679105e-05,
      "loss": 0.7828,
      "step": 991
    },
    {
      "epoch": 0.769588828549263,
      "grad_norm": 5.903829574584961,
      "learning_rate": 3.4506324171389376e-05,
      "loss": 0.3041,
      "step": 992
    },
    {
      "epoch": 0.7703646237393328,
      "grad_norm": 6.317503929138184,
      "learning_rate": 3.449918182380925e-05,
      "loss": 0.3975,
      "step": 993
    },
    {
      "epoch": 0.7711404189294027,
      "grad_norm": 11.507726669311523,
      "learning_rate": 3.449198901457376e-05,
      "loss": 0.9688,
      "step": 994
    },
    {
      "epoch": 0.7719162141194724,
      "grad_norm": 11.324596405029297,
      "learning_rate": 3.44847457674849e-05,
      "loss": 1.1401,
      "step": 995
    },
    {
      "epoch": 0.7726920093095423,
      "grad_norm": 6.348566055297852,
      "learning_rate": 3.447745210651157e-05,
      "loss": 0.2577,
      "step": 996
    },
    {
      "epoch": 0.773467804499612,
      "grad_norm": 7.979206562042236,
      "learning_rate": 3.447010805578952e-05,
      "loss": 0.4082,
      "step": 997
    },
    {
      "epoch": 0.7742435996896819,
      "grad_norm": 11.176900863647461,
      "learning_rate": 3.4462713639621216e-05,
      "loss": 1.1123,
      "step": 998
    },
    {
      "epoch": 0.7750193948797518,
      "grad_norm": 11.583893775939941,
      "learning_rate": 3.445526888247582e-05,
      "loss": 1.1666,
      "step": 999
    },
    {
      "epoch": 0.7757951900698216,
      "grad_norm": 8.623787879943848,
      "learning_rate": 3.444777380898906e-05,
      "loss": 0.3604,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_Qnli-dev_cosine_accuracy": 0.6640625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8585967421531677,
      "eval_Qnli-dev_cosine_ap": 0.7072261339706888,
      "eval_Qnli-dev_cosine_f1": 0.6784,
      "eval_Qnli-dev_cosine_f1_threshold": 0.7310217022895813,
      "eval_Qnli-dev_cosine_precision": 0.5449871465295629,
      "eval_Qnli-dev_cosine_recall": 0.8983050847457628,
      "eval_Qnli-dev_dot_accuracy": 0.66015625,
      "eval_Qnli-dev_dot_accuracy_threshold": 438.5562438964844,
      "eval_Qnli-dev_dot_ap": 0.6181116448278678,
      "eval_Qnli-dev_dot_f1": 0.6862068965517241,
      "eval_Qnli-dev_dot_f1_threshold": 387.94915771484375,
      "eval_Qnli-dev_dot_precision": 0.5784883720930233,
      "eval_Qnli-dev_dot_recall": 0.8432203389830508,
      "eval_Qnli-dev_euclidean_accuracy": 0.662109375,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 11.772767066955566,
      "eval_Qnli-dev_euclidean_ap": 0.7042470542356045,
      "eval_Qnli-dev_euclidean_f1": 0.67430441898527,
      "eval_Qnli-dev_euclidean_f1_threshold": 16.53150177001953,
      "eval_Qnli-dev_euclidean_precision": 0.5493333333333333,
      "eval_Qnli-dev_euclidean_recall": 0.8728813559322034,
      "eval_Qnli-dev_manhattan_accuracy": 0.662109375,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 233.6343536376953,
      "eval_Qnli-dev_manhattan_ap": 0.7049491900641356,
      "eval_Qnli-dev_manhattan_f1": 0.6740157480314961,
      "eval_Qnli-dev_manhattan_f1_threshold": 310.9897155761719,
      "eval_Qnli-dev_manhattan_precision": 0.5363408521303258,
      "eval_Qnli-dev_manhattan_recall": 0.9067796610169492,
      "eval_Qnli-dev_max_accuracy": 0.6640625,
      "eval_Qnli-dev_max_accuracy_threshold": 438.5562438964844,
      "eval_Qnli-dev_max_ap": 0.7072261339706888,
      "eval_Qnli-dev_max_f1": 0.6862068965517241,
      "eval_Qnli-dev_max_f1_threshold": 387.94915771484375,
      "eval_Qnli-dev_max_precision": 0.5784883720930233,
      "eval_Qnli-dev_max_recall": 0.9067796610169492,
      "eval_allNLI-dev_cosine_accuracy": 0.71875,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8951315879821777,
      "eval_allNLI-dev_cosine_ap": 0.5922299489907299,
      "eval_allNLI-dev_cosine_f1": 0.6082949308755761,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8141263723373413,
      "eval_allNLI-dev_cosine_precision": 0.5057471264367817,
      "eval_allNLI-dev_cosine_recall": 0.7630057803468208,
      "eval_allNLI-dev_dot_accuracy": 0.681640625,
      "eval_allNLI-dev_dot_accuracy_threshold": 446.1053466796875,
      "eval_allNLI-dev_dot_ap": 0.48246622052927113,
      "eval_allNLI-dev_dot_f1": 0.5590062111801242,
      "eval_allNLI-dev_dot_f1_threshold": 374.9225769042969,
      "eval_allNLI-dev_dot_precision": 0.43548387096774194,
      "eval_allNLI-dev_dot_recall": 0.7803468208092486,
      "eval_allNLI-dev_euclidean_accuracy": 0.720703125,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 10.087106704711914,
      "eval_allNLI-dev_euclidean_ap": 0.5941553994592871,
      "eval_allNLI-dev_euclidean_f1": 0.6103896103896104,
      "eval_allNLI-dev_euclidean_f1_threshold": 14.128737449645996,
      "eval_allNLI-dev_euclidean_precision": 0.48788927335640137,
      "eval_allNLI-dev_euclidean_recall": 0.815028901734104,
      "eval_allNLI-dev_manhattan_accuracy": 0.72265625,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 187.36474609375,
      "eval_allNLI-dev_manhattan_ap": 0.5980100739317054,
      "eval_allNLI-dev_manhattan_f1": 0.6112359550561798,
      "eval_allNLI-dev_manhattan_f1_threshold": 250.49891662597656,
      "eval_allNLI-dev_manhattan_precision": 0.5,
      "eval_allNLI-dev_manhattan_recall": 0.7861271676300579,
      "eval_allNLI-dev_max_accuracy": 0.72265625,
      "eval_allNLI-dev_max_accuracy_threshold": 446.1053466796875,
      "eval_allNLI-dev_max_ap": 0.5980100739317054,
      "eval_allNLI-dev_max_f1": 0.6112359550561798,
      "eval_allNLI-dev_max_f1_threshold": 374.9225769042969,
      "eval_allNLI-dev_max_precision": 0.5057471264367817,
      "eval_allNLI-dev_max_recall": 0.815028901734104,
      "eval_sequential_score": 0.7072261339706888,
      "eval_sts-test_pearson_cosine": 0.8240460299579315,
      "eval_sts-test_pearson_dot": 0.7760484561339727,
      "eval_sts-test_pearson_euclidean": 0.8490394139563605,
      "eval_sts-test_pearson_manhattan": 0.8452740837154643,
      "eval_sts-test_pearson_max": 0.8490394139563605,
      "eval_sts-test_spearman_cosine": 0.8523662221604228,
      "eval_sts-test_spearman_dot": 0.7650894481141866,
      "eval_sts-test_spearman_euclidean": 0.8438821885233185,
      "eval_sts-test_spearman_manhattan": 0.8415195456781596,
      "eval_sts-test_spearman_max": 0.8523662221604228,
      "eval_vitaminc-pairs_loss": 3.8202943801879883,
      "eval_vitaminc-pairs_runtime": 5.5018,
      "eval_vitaminc-pairs_samples_per_second": 23.265,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_negation-triplets_loss": 1.8671759366989136,
      "eval_negation-triplets_runtime": 1.0857,
      "eval_negation-triplets_samples_per_second": 117.901,
      "eval_negation-triplets_steps_per_second": 1.842,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_scitail-pairs-pos_loss": 0.11585887521505356,
      "eval_scitail-pairs-pos_runtime": 1.3118,
      "eval_scitail-pairs-pos_samples_per_second": 97.574,
      "eval_scitail-pairs-pos_steps_per_second": 1.525,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_scitail-pairs-qa_loss": 0.007170978933572769,
      "eval_scitail-pairs-qa_runtime": 0.7957,
      "eval_scitail-pairs-qa_samples_per_second": 160.866,
      "eval_scitail-pairs-qa_steps_per_second": 2.514,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_xsum-pairs_loss": 0.21687336266040802,
      "eval_xsum-pairs_runtime": 3.9429,
      "eval_xsum-pairs_samples_per_second": 32.464,
      "eval_xsum-pairs_steps_per_second": 0.507,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_sciq_pairs_loss": 0.05961114913225174,
      "eval_sciq_pairs_runtime": 6.0342,
      "eval_sciq_pairs_samples_per_second": 21.212,
      "eval_sciq_pairs_steps_per_second": 0.331,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_qasc_pairs_loss": 0.5340542197227478,
      "eval_qasc_pairs_runtime": 0.9281,
      "eval_qasc_pairs_samples_per_second": 137.921,
      "eval_qasc_pairs_steps_per_second": 2.155,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_openbookqa_pairs_loss": 1.3652724027633667,
      "eval_openbookqa_pairs_runtime": 0.8824,
      "eval_openbookqa_pairs_samples_per_second": 145.055,
      "eval_openbookqa_pairs_steps_per_second": 2.266,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_msmarco_pairs_loss": 0.5528172254562378,
      "eval_msmarco_pairs_runtime": 1.9796,
      "eval_msmarco_pairs_samples_per_second": 64.659,
      "eval_msmarco_pairs_steps_per_second": 1.01,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_nq_pairs_loss": 0.9207841753959656,
      "eval_nq_pairs_runtime": 3.3449,
      "eval_nq_pairs_samples_per_second": 38.267,
      "eval_nq_pairs_steps_per_second": 0.598,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_trivia_pairs_loss": 1.1129192113876343,
      "eval_trivia_pairs_runtime": 4.4712,
      "eval_trivia_pairs_samples_per_second": 28.627,
      "eval_trivia_pairs_steps_per_second": 0.447,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_gooaq_pairs_loss": 0.7599539160728455,
      "eval_gooaq_pairs_runtime": 1.4703,
      "eval_gooaq_pairs_samples_per_second": 87.056,
      "eval_gooaq_pairs_steps_per_second": 1.36,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_paws-pos_loss": 0.03802761435508728,
      "eval_paws-pos_runtime": 1.0313,
      "eval_paws-pos_samples_per_second": 124.114,
      "eval_paws-pos_steps_per_second": 1.939,
      "step": 1000
    },
    {
      "epoch": 0.7757951900698216,
      "eval_global_dataset_loss": 0.46472543478012085,
      "eval_global_dataset_runtime": 19.4347,
      "eval_global_dataset_samples_per_second": 21.405,
      "eval_global_dataset_steps_per_second": 0.36,
      "step": 1000
    },
    {
      "epoch": 0.7765709852598914,
      "grad_norm": 9.618617057800293,
      "learning_rate": 3.444022844396316e-05,
      "loss": 0.5992,
      "step": 1001
    },
    {
      "epoch": 0.7773467804499612,
      "grad_norm": 11.019386291503906,
      "learning_rate": 3.443263281236679e-05,
      "loss": 0.9816,
      "step": 1002
    },
    {
      "epoch": 0.7781225756400311,
      "grad_norm": 6.277504920959473,
      "learning_rate": 3.442498693933495e-05,
      "loss": 0.2457,
      "step": 1003
    },
    {
      "epoch": 0.7788983708301008,
      "grad_norm": 9.241889953613281,
      "learning_rate": 3.4417290850168886e-05,
      "loss": 0.4026,
      "step": 1004
    },
    {
      "epoch": 0.7796741660201707,
      "grad_norm": 11.455988883972168,
      "learning_rate": 3.4409544570336025e-05,
      "loss": 1.0561,
      "step": 1005
    },
    {
      "epoch": 0.7804499612102405,
      "grad_norm": 6.769739151000977,
      "learning_rate": 3.440174812546989e-05,
      "loss": 0.3819,
      "step": 1006
    },
    {
      "epoch": 0.7812257564003103,
      "grad_norm": 9.21048641204834,
      "learning_rate": 3.439390154136999e-05,
      "loss": 0.7407,
      "step": 1007
    },
    {
      "epoch": 0.7820015515903801,
      "grad_norm": 0.6326342225074768,
      "learning_rate": 3.4386004844001745e-05,
      "loss": 0.0148,
      "step": 1008
    },
    {
      "epoch": 0.78277734678045,
      "grad_norm": 16.204675674438477,
      "learning_rate": 3.437805805949644e-05,
      "loss": 1.5554,
      "step": 1009
    },
    {
      "epoch": 0.7835531419705197,
      "grad_norm": 13.959929466247559,
      "learning_rate": 3.437006121415108e-05,
      "loss": 1.3148,
      "step": 1010
    },
    {
      "epoch": 0.7843289371605896,
      "grad_norm": 13.183578491210938,
      "learning_rate": 3.436201433442833e-05,
      "loss": 1.1629,
      "step": 1011
    },
    {
      "epoch": 0.7851047323506595,
      "grad_norm": 11.557097434997559,
      "learning_rate": 3.435391744695643e-05,
      "loss": 0.9787,
      "step": 1012
    },
    {
      "epoch": 0.7858805275407292,
      "grad_norm": 6.3334197998046875,
      "learning_rate": 3.434577057852912e-05,
      "loss": 0.2663,
      "step": 1013
    },
    {
      "epoch": 0.7866563227307991,
      "grad_norm": 7.671533584594727,
      "learning_rate": 3.433757375610549e-05,
      "loss": 0.4504,
      "step": 1014
    },
    {
      "epoch": 0.7874321179208689,
      "grad_norm": 2.7367801666259766,
      "learning_rate": 3.432932700680998e-05,
      "loss": 0.088,
      "step": 1015
    },
    {
      "epoch": 0.7882079131109387,
      "grad_norm": 7.571774959564209,
      "learning_rate": 3.432103035793221e-05,
      "loss": 0.4763,
      "step": 1016
    },
    {
      "epoch": 0.7889837083010085,
      "grad_norm": 11.234426498413086,
      "learning_rate": 3.4312683836926964e-05,
      "loss": 1.1033,
      "step": 1017
    },
    {
      "epoch": 0.7897595034910784,
      "grad_norm": 9.548408508300781,
      "learning_rate": 3.4304287471414005e-05,
      "loss": 0.8237,
      "step": 1018
    },
    {
      "epoch": 0.7905352986811481,
      "grad_norm": 7.409108638763428,
      "learning_rate": 3.42958412891781e-05,
      "loss": 0.6254,
      "step": 1019
    },
    {
      "epoch": 0.791311093871218,
      "grad_norm": 6.861879825592041,
      "learning_rate": 3.428734531816882e-05,
      "loss": 0.3469,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_Qnli-dev_cosine_accuracy": 0.666015625,
      "eval_Qnli-dev_cosine_accuracy_threshold": 0.8681036233901978,
      "eval_Qnli-dev_cosine_ap": 0.7094084030823454,
      "eval_Qnli-dev_cosine_f1": 0.6764705882352942,
      "eval_Qnli-dev_cosine_f1_threshold": 0.765945315361023,
      "eval_Qnli-dev_cosine_precision": 0.550531914893617,
      "eval_Qnli-dev_cosine_recall": 0.8771186440677966,
      "eval_Qnli-dev_dot_accuracy": 0.65234375,
      "eval_Qnli-dev_dot_accuracy_threshold": 457.37042236328125,
      "eval_Qnli-dev_dot_ap": 0.6358214479317308,
      "eval_Qnli-dev_dot_f1": 0.6646433990895295,
      "eval_Qnli-dev_dot_f1_threshold": 364.1715087890625,
      "eval_Qnli-dev_dot_precision": 0.5177304964539007,
      "eval_Qnli-dev_dot_recall": 0.9279661016949152,
      "eval_Qnli-dev_euclidean_accuracy": 0.666015625,
      "eval_Qnli-dev_euclidean_accuracy_threshold": 12.555442810058594,
      "eval_Qnli-dev_euclidean_ap": 0.703264483424873,
      "eval_Qnli-dev_euclidean_f1": 0.6811352253756261,
      "eval_Qnli-dev_euclidean_f1_threshold": 15.256208419799805,
      "eval_Qnli-dev_euclidean_precision": 0.5619834710743802,
      "eval_Qnli-dev_euclidean_recall": 0.864406779661017,
      "eval_Qnli-dev_manhattan_accuracy": 0.6640625,
      "eval_Qnli-dev_manhattan_accuracy_threshold": 209.95579528808594,
      "eval_Qnli-dev_manhattan_ap": 0.7010388632047662,
      "eval_Qnli-dev_manhattan_f1": 0.678688524590164,
      "eval_Qnli-dev_manhattan_f1_threshold": 279.05859375,
      "eval_Qnli-dev_manhattan_precision": 0.553475935828877,
      "eval_Qnli-dev_manhattan_recall": 0.8771186440677966,
      "eval_Qnli-dev_max_accuracy": 0.666015625,
      "eval_Qnli-dev_max_accuracy_threshold": 457.37042236328125,
      "eval_Qnli-dev_max_ap": 0.7094084030823454,
      "eval_Qnli-dev_max_f1": 0.6811352253756261,
      "eval_Qnli-dev_max_f1_threshold": 364.1715087890625,
      "eval_Qnli-dev_max_precision": 0.5619834710743802,
      "eval_Qnli-dev_max_recall": 0.9279661016949152,
      "eval_allNLI-dev_cosine_accuracy": 0.724609375,
      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9020903706550598,
      "eval_allNLI-dev_cosine_ap": 0.5908777095252007,
      "eval_allNLI-dev_cosine_f1": 0.6072186836518046,
      "eval_allNLI-dev_cosine_f1_threshold": 0.8101892471313477,
      "eval_allNLI-dev_cosine_precision": 0.4798657718120805,
      "eval_allNLI-dev_cosine_recall": 0.8265895953757225,
      "eval_allNLI-dev_dot_accuracy": 0.673828125,
      "eval_allNLI-dev_dot_accuracy_threshold": 445.72357177734375,
      "eval_allNLI-dev_dot_ap": 0.4811334688217761,
      "eval_allNLI-dev_dot_f1": 0.5601577909270217,
      "eval_allNLI-dev_dot_f1_threshold": 373.24920654296875,
      "eval_allNLI-dev_dot_precision": 0.4251497005988024,
      "eval_allNLI-dev_dot_recall": 0.8208092485549133,
      "eval_allNLI-dev_euclidean_accuracy": 0.724609375,
      "eval_allNLI-dev_euclidean_accuracy_threshold": 9.453763961791992,
      "eval_allNLI-dev_euclidean_ap": 0.5979380797387099,
      "eval_allNLI-dev_euclidean_f1": 0.6030368763557483,
      "eval_allNLI-dev_euclidean_f1_threshold": 13.23131275177002,
      "eval_allNLI-dev_euclidean_precision": 0.4826388888888889,
      "eval_allNLI-dev_euclidean_recall": 0.8034682080924855,
      "eval_allNLI-dev_manhattan_accuracy": 0.73046875,
      "eval_allNLI-dev_manhattan_accuracy_threshold": 175.73252868652344,
      "eval_allNLI-dev_manhattan_ap": 0.6015885881415546,
      "eval_allNLI-dev_manhattan_f1": 0.6041666666666666,
      "eval_allNLI-dev_manhattan_f1_threshold": 246.5721435546875,
      "eval_allNLI-dev_manhattan_precision": 0.4723127035830619,
      "eval_allNLI-dev_manhattan_recall": 0.838150289017341,
      "eval_allNLI-dev_max_accuracy": 0.73046875,
      "eval_allNLI-dev_max_accuracy_threshold": 445.72357177734375,
      "eval_allNLI-dev_max_ap": 0.6015885881415546,
      "eval_allNLI-dev_max_f1": 0.6072186836518046,
      "eval_allNLI-dev_max_f1_threshold": 373.24920654296875,
      "eval_allNLI-dev_max_precision": 0.4826388888888889,
      "eval_allNLI-dev_max_recall": 0.838150289017341,
      "eval_sequential_score": 0.7094084030823454,
      "eval_sts-test_pearson_cosine": 0.8171211771924991,
      "eval_sts-test_pearson_dot": 0.7826872705119017,
      "eval_sts-test_pearson_euclidean": 0.8449734475782972,
      "eval_sts-test_pearson_manhattan": 0.8394242105464415,
      "eval_sts-test_pearson_max": 0.8449734475782972,
      "eval_sts-test_spearman_cosine": 0.8478566375500115,
      "eval_sts-test_spearman_dot": 0.7765593754138477,
      "eval_sts-test_spearman_euclidean": 0.8410154227185854,
      "eval_sts-test_spearman_manhattan": 0.8379763198062341,
      "eval_sts-test_spearman_max": 0.8478566375500115,
      "eval_vitaminc-pairs_loss": 3.7102108001708984,
      "eval_vitaminc-pairs_runtime": 5.4983,
      "eval_vitaminc-pairs_samples_per_second": 23.28,
      "eval_vitaminc-pairs_steps_per_second": 0.364,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_negation-triplets_loss": 1.8503952026367188,
      "eval_negation-triplets_runtime": 1.0838,
      "eval_negation-triplets_samples_per_second": 118.098,
      "eval_negation-triplets_steps_per_second": 1.845,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_scitail-pairs-pos_loss": 0.11608420312404633,
      "eval_scitail-pairs-pos_runtime": 1.3048,
      "eval_scitail-pairs-pos_samples_per_second": 98.098,
      "eval_scitail-pairs-pos_steps_per_second": 1.533,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_scitail-pairs-qa_loss": 0.015517156571149826,
      "eval_scitail-pairs-qa_runtime": 0.7864,
      "eval_scitail-pairs-qa_samples_per_second": 162.767,
      "eval_scitail-pairs-qa_steps_per_second": 2.543,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_xsum-pairs_loss": 0.2630694508552551,
      "eval_xsum-pairs_runtime": 3.9337,
      "eval_xsum-pairs_samples_per_second": 32.539,
      "eval_xsum-pairs_steps_per_second": 0.508,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_sciq_pairs_loss": 0.05809640884399414,
      "eval_sciq_pairs_runtime": 6.0331,
      "eval_sciq_pairs_samples_per_second": 21.216,
      "eval_sciq_pairs_steps_per_second": 0.332,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_qasc_pairs_loss": 0.4373838007450104,
      "eval_qasc_pairs_runtime": 0.9312,
      "eval_qasc_pairs_samples_per_second": 137.457,
      "eval_qasc_pairs_steps_per_second": 2.148,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_openbookqa_pairs_loss": 1.2920573949813843,
      "eval_openbookqa_pairs_runtime": 0.878,
      "eval_openbookqa_pairs_samples_per_second": 145.79,
      "eval_openbookqa_pairs_steps_per_second": 2.278,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_msmarco_pairs_loss": 0.4513913691043854,
      "eval_msmarco_pairs_runtime": 1.9774,
      "eval_msmarco_pairs_samples_per_second": 64.732,
      "eval_msmarco_pairs_steps_per_second": 1.011,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_nq_pairs_loss": 0.9309043884277344,
      "eval_nq_pairs_runtime": 3.3634,
      "eval_nq_pairs_samples_per_second": 38.057,
      "eval_nq_pairs_steps_per_second": 0.595,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_trivia_pairs_loss": 1.0333608388900757,
      "eval_trivia_pairs_runtime": 4.5041,
      "eval_trivia_pairs_samples_per_second": 28.418,
      "eval_trivia_pairs_steps_per_second": 0.444,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_gooaq_pairs_loss": 0.6852787733078003,
      "eval_gooaq_pairs_runtime": 1.4614,
      "eval_gooaq_pairs_samples_per_second": 87.585,
      "eval_gooaq_pairs_steps_per_second": 1.369,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_paws-pos_loss": 0.0355130210518837,
      "eval_paws-pos_runtime": 1.0428,
      "eval_paws-pos_samples_per_second": 122.744,
      "eval_paws-pos_steps_per_second": 1.918,
      "step": 1020
    },
    {
      "epoch": 0.791311093871218,
      "eval_global_dataset_loss": 0.44458168745040894,
      "eval_global_dataset_runtime": 19.4069,
      "eval_global_dataset_samples_per_second": 21.436,
      "eval_global_dataset_steps_per_second": 0.361,
      "step": 1020
    },
    {
      "epoch": 0.7920868890612878,
      "grad_norm": 7.659545421600342,
      "learning_rate": 3.427879958650051e-05,
      "loss": 0.5202,
      "step": 1021
    },
    {
      "epoch": 0.7928626842513576,
      "grad_norm": 10.905531883239746,
      "learning_rate": 3.4270204122452186e-05,
      "loss": 1.2528,
      "step": 1022
    },
    {
      "epoch": 0.7936384794414275,
      "grad_norm": 6.264749050140381,
      "learning_rate": 3.4261558954467424e-05,
      "loss": 0.3869,
      "step": 1023
    },
    {
      "epoch": 0.7944142746314973,
      "grad_norm": 0.9429741501808167,
      "learning_rate": 3.425286411115429e-05,
      "loss": 0.0338,
      "step": 1024
    },
    {
      "epoch": 0.7951900698215671,
      "grad_norm": 9.22243595123291,
      "learning_rate": 3.4244119621285214e-05,
      "loss": 0.8394,
      "step": 1025
    },
    {
      "epoch": 0.7959658650116369,
      "grad_norm": 6.922791481018066,
      "learning_rate": 3.4235325513796934e-05,
      "loss": 0.2863,
      "step": 1026
    },
    {
      "epoch": 0.7967416602017068,
      "grad_norm": 8.849251747131348,
      "learning_rate": 3.422648181779037e-05,
      "loss": 0.4839,
      "step": 1027
    },
    {
      "epoch": 0.7975174553917765,
      "grad_norm": 10.697627067565918,
      "learning_rate": 3.4217588562530535e-05,
      "loss": 0.7893,
      "step": 1028
    },
    {
      "epoch": 0.7982932505818464,
      "grad_norm": 14.224536895751953,
      "learning_rate": 3.420864577744644e-05,
      "loss": 1.2165,
      "step": 1029
    },
    {
      "epoch": 0.7990690457719162,
      "grad_norm": 12.774467468261719,
      "learning_rate": 3.4199653492131e-05,
      "loss": 1.0787,
      "step": 1030
    },
    {
      "epoch": 0.799844840961986,
      "grad_norm": 7.543542861938477,
      "learning_rate": 3.4190611736340934e-05,
      "loss": 0.3367,
      "step": 1031
    },
    {
      "epoch": 0.8006206361520558,
      "grad_norm": 7.519282817840576,
      "learning_rate": 3.418152053999667e-05,
      "loss": 0.5754,
      "step": 1032
    }
  ],
  "logging_steps": 1,
  "max_steps": 2578,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 258,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 96,
  "trial_name": null,
  "trial_params": null
}