bobox commited on Jul 12, 2024

Commit

a47a121

verified ·

1 Parent(s): ac65dff

Training in progress, step 1277, checkpoint

Browse files

Files changed (17) hide show

checkpoint-1277/1_Pooling/config.json +10 -0
checkpoint-1277/README.md +0 -0
checkpoint-1277/added_tokens.json +3 -0
checkpoint-1277/config.json +35 -0
checkpoint-1277/config_sentence_transformers.json +10 -0
checkpoint-1277/modules.json +14 -0
checkpoint-1277/optimizer.pt +3 -0
checkpoint-1277/pytorch_model.bin +3 -0
checkpoint-1277/rng_state.pth +3 -0
checkpoint-1277/scheduler.pt +3 -0
checkpoint-1277/sentence_bert_config.json +4 -0
checkpoint-1277/special_tokens_map.json +51 -0
checkpoint-1277/spm.model +3 -0
checkpoint-1277/tokenizer.json +0 -0
checkpoint-1277/tokenizer_config.json +65 -0
checkpoint-1277/trainer_state.json +744 -0
checkpoint-1277/training_args.bin +3 -0

checkpoint-1277/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-1277/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1277/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-1277/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "bobox/DeBERTa-ST-AllLayers-v3-checkpoints-tmp",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-1277/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.3",
+    "pytorch": "2.1.2"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-1277/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-1277/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b66768a28b86324483203ba043198f6ac68a378812eb969e67ae8bc5742740f7
+size 1130520122

checkpoint-1277/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:245c446fb6b5f9870ce15c53db1c2f7dc77eba396de8f439a5f04b416f04a4b7
+size 565251810

checkpoint-1277/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e81aa0420b3efec215a5263b93b80ac3bb9668600016c42183f22470430eb2b5
+size 14244

checkpoint-1277/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7cc8f7c085f832821f9b924f3037f401136be640cc4aeec8246709bb9e6a339
+size 1064

checkpoint-1277/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-1277/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1277/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-1277/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1277/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-1277/trainer_state.json ADDED Viewed

	@@ -0,0 +1,744 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.20012537219871493,
+  "eval_steps": 320,
+  "global_step": 1277,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0050148879485973985,
+      "grad_norm": 14.771158218383789,
+      "learning_rate": 9.707724425887265e-07,
+      "loss": 0.6329,
+      "step": 32
+    },
+    {
+      "epoch": 0.010029775897194797,
+      "grad_norm": 11.052021980285645,
+      "learning_rate": 1.9728601252609606e-06,
+      "loss": 0.9693,
+      "step": 64
+    },
+    {
+      "epoch": 0.015044663845792195,
+      "grad_norm": 20.26296615600586,
+      "learning_rate": 2.9749478079331944e-06,
+      "loss": 0.6548,
+      "step": 96
+    },
+    {
+      "epoch": 0.020059551794389594,
+      "grad_norm": 12.62913703918457,
+      "learning_rate": 3.945720250521921e-06,
+      "loss": 1.1279,
+      "step": 128
+    },
+    {
+      "epoch": 0.025074439742986992,
+      "grad_norm": 12.316486358642578,
+      "learning_rate": 4.916492693110647e-06,
+      "loss": 1.0017,
+      "step": 160
+    },
+    {
+      "epoch": 0.03008932769158439,
+      "grad_norm": 64.25923919677734,
+      "learning_rate": 5.918580375782881e-06,
+      "loss": 0.7571,
+      "step": 192
+    },
+    {
+      "epoch": 0.03510421564018179,
+      "grad_norm": 0.8205029368400574,
+      "learning_rate": 6.920668058455115e-06,
+      "loss": 0.7304,
+      "step": 224
+    },
+    {
+      "epoch": 0.04011910358877919,
+      "grad_norm": 6.598870754241943,
+      "learning_rate": 7.922755741127349e-06,
+      "loss": 0.7636,
+      "step": 256
+    },
+    {
+      "epoch": 0.045133991537376586,
+      "grad_norm": 8.728073120117188,
+      "learning_rate": 8.924843423799583e-06,
+      "loss": 0.482,
+      "step": 288
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "grad_norm": 7.645521640777588,
+      "learning_rate": 9.926931106471817e-06,
+      "loss": 0.6312,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_nli-pairs_loss": 1.0158467292785645,
+      "eval_nli-pairs_runtime": 3.7267,
+      "eval_nli-pairs_samples_per_second": 26.833,
+      "eval_nli-pairs_steps_per_second": 1.073,
+      "eval_sts-test_pearson_cosine": 0.7848265412179125,
+      "eval_sts-test_pearson_dot": 0.5437080705284749,
+      "eval_sts-test_pearson_euclidean": 0.7445845076364892,
+      "eval_sts-test_pearson_manhattan": 0.7429239204432232,
+      "eval_sts-test_pearson_max": 0.7848265412179125,
+      "eval_sts-test_spearman_cosine": 0.7989504707258924,
+      "eval_sts-test_spearman_dot": 0.5206855421174118,
+      "eval_sts-test_spearman_euclidean": 0.733568982260844,
+      "eval_sts-test_spearman_manhattan": 0.7349407257944446,
+      "eval_sts-test_spearman_max": 0.7989504707258924,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_vitaminc-pairs_loss": 4.692601680755615,
+      "eval_vitaminc-pairs_runtime": 1.1397,
+      "eval_vitaminc-pairs_samples_per_second": 74.578,
+      "eval_vitaminc-pairs_steps_per_second": 2.632,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_sts-label_loss": 3.5502490997314453,
+      "eval_sts-label_runtime": 0.28,
+      "eval_sts-label_samples_per_second": 357.117,
+      "eval_sts-label_steps_per_second": 14.285,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_qnli-contrastive_loss": 0.16079513728618622,
+      "eval_qnli-contrastive_runtime": 0.3646,
+      "eval_qnli-contrastive_samples_per_second": 274.299,
+      "eval_qnli-contrastive_steps_per_second": 10.972,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_scitail-pairs-qa_loss": 0.07610582560300827,
+      "eval_scitail-pairs-qa_runtime": 0.8885,
+      "eval_scitail-pairs-qa_samples_per_second": 112.548,
+      "eval_scitail-pairs-qa_steps_per_second": 4.502,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_scitail-pairs-pos_loss": 0.5141278505325317,
+      "eval_scitail-pairs-pos_runtime": 1.3498,
+      "eval_scitail-pairs-pos_samples_per_second": 74.085,
+      "eval_scitail-pairs-pos_steps_per_second": 2.963,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_xsum-pairs_loss": 0.25581496953964233,
+      "eval_xsum-pairs_runtime": 0.9407,
+      "eval_xsum-pairs_samples_per_second": 106.304,
+      "eval_xsum-pairs_steps_per_second": 4.252,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_compression-pairs_loss": 0.09814296662807465,
+      "eval_compression-pairs_runtime": 0.2758,
+      "eval_compression-pairs_samples_per_second": 362.517,
+      "eval_compression-pairs_steps_per_second": 14.501,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_sciq_pairs_loss": 0.25620242953300476,
+      "eval_sciq_pairs_runtime": 4.1155,
+      "eval_sciq_pairs_samples_per_second": 24.298,
+      "eval_sciq_pairs_steps_per_second": 0.972,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_qasc_pairs_loss": 0.2044612169265747,
+      "eval_qasc_pairs_runtime": 1.1029,
+      "eval_qasc_pairs_samples_per_second": 90.672,
+      "eval_qasc_pairs_steps_per_second": 3.627,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_openbookqa_pairs_loss": 1.7537646293640137,
+      "eval_openbookqa_pairs_runtime": 0.9037,
+      "eval_openbookqa_pairs_samples_per_second": 110.653,
+      "eval_openbookqa_pairs_steps_per_second": 4.426,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_msmarco_pairs_loss": 0.5138561725616455,
+      "eval_msmarco_pairs_runtime": 2.0511,
+      "eval_msmarco_pairs_samples_per_second": 48.754,
+      "eval_msmarco_pairs_steps_per_second": 1.95,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_nq_pairs_loss": 0.23510317504405975,
+      "eval_nq_pairs_runtime": 4.5293,
+      "eval_nq_pairs_samples_per_second": 22.078,
+      "eval_nq_pairs_steps_per_second": 0.883,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_trivia_pairs_loss": 0.7808571457862854,
+      "eval_trivia_pairs_runtime": 6.5065,
+      "eval_trivia_pairs_samples_per_second": 15.369,
+      "eval_trivia_pairs_steps_per_second": 0.615,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_quora_pairs_loss": 0.0392119362950325,
+      "eval_quora_pairs_runtime": 0.675,
+      "eval_quora_pairs_samples_per_second": 148.153,
+      "eval_quora_pairs_steps_per_second": 5.926,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_gooaq_pairs_loss": 0.4712902009487152,
+      "eval_gooaq_pairs_runtime": 1.4079,
+      "eval_gooaq_pairs_samples_per_second": 71.028,
+      "eval_gooaq_pairs_steps_per_second": 2.841,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_mrpc_pairs_loss": 0.05498996376991272,
+      "eval_mrpc_pairs_runtime": 0.2623,
+      "eval_mrpc_pairs_samples_per_second": 381.172,
+      "eval_mrpc_pairs_steps_per_second": 15.247,
+      "step": 320
+    },
+    {
+      "epoch": 0.05516376743457138,
+      "grad_norm": 0.34924012422561646,
+      "learning_rate": 1.092901878914405e-05,
+      "loss": 0.5791,
+      "step": 352
+    },
+    {
+      "epoch": 0.06017865538316878,
+      "grad_norm": 0.36700841784477234,
+      "learning_rate": 1.1931106471816284e-05,
+      "loss": 0.6413,
+      "step": 384
+    },
+    {
+      "epoch": 0.06519354333176618,
+      "grad_norm": 7.559622764587402,
+      "learning_rate": 1.2933194154488518e-05,
+      "loss": 0.4319,
+      "step": 416
+    },
+    {
+      "epoch": 0.07020843128036358,
+      "grad_norm": 7.982416152954102,
+      "learning_rate": 1.3935281837160753e-05,
+      "loss": 0.6672,
+      "step": 448
+    },
+    {
+      "epoch": 0.07522331922896097,
+      "grad_norm": 0.6726166009902954,
+      "learning_rate": 1.4937369519832987e-05,
+      "loss": 0.459,
+      "step": 480
+    },
+    {
+      "epoch": 0.08023820717755838,
+      "grad_norm": 14.846123695373535,
+      "learning_rate": 1.593945720250522e-05,
+      "loss": 0.7621,
+      "step": 512
+    },
+    {
+      "epoch": 0.08525309512615578,
+      "grad_norm": 0.7846627831459045,
+      "learning_rate": 1.6941544885177454e-05,
+      "loss": 0.864,
+      "step": 544
+    },
+    {
+      "epoch": 0.09026798307475317,
+      "grad_norm": 0.8993583917617798,
+      "learning_rate": 1.7943632567849688e-05,
+      "loss": 0.5081,
+      "step": 576
+    },
+    {
+      "epoch": 0.09528287102335058,
+      "grad_norm": 1.4990565776824951,
+      "learning_rate": 1.894572025052192e-05,
+      "loss": 0.654,
+      "step": 608
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "grad_norm": 15.647976875305176,
+      "learning_rate": 1.9947807933194157e-05,
+      "loss": 0.6372,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_nli-pairs_loss": 1.0652996301651,
+      "eval_nli-pairs_runtime": 3.6326,
+      "eval_nli-pairs_samples_per_second": 27.528,
+      "eval_nli-pairs_steps_per_second": 1.101,
+      "eval_sts-test_pearson_cosine": 0.785263018402905,
+      "eval_sts-test_pearson_dot": 0.5290450141477089,
+      "eval_sts-test_pearson_euclidean": 0.7433756286425983,
+      "eval_sts-test_pearson_manhattan": 0.7411097274300102,
+      "eval_sts-test_pearson_max": 0.785263018402905,
+      "eval_sts-test_spearman_cosine": 0.7996928912411947,
+      "eval_sts-test_spearman_dot": 0.5102571497667188,
+      "eval_sts-test_spearman_euclidean": 0.7338969723324641,
+      "eval_sts-test_spearman_manhattan": 0.7343494860194358,
+      "eval_sts-test_spearman_max": 0.7996928912411947,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_vitaminc-pairs_loss": 4.719416618347168,
+      "eval_vitaminc-pairs_runtime": 1.1268,
+      "eval_vitaminc-pairs_samples_per_second": 75.437,
+      "eval_vitaminc-pairs_steps_per_second": 2.662,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_sts-label_loss": 3.612347364425659,
+      "eval_sts-label_runtime": 0.2683,
+      "eval_sts-label_samples_per_second": 372.651,
+      "eval_sts-label_steps_per_second": 14.906,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_qnli-contrastive_loss": 0.15202775597572327,
+      "eval_qnli-contrastive_runtime": 0.3528,
+      "eval_qnli-contrastive_samples_per_second": 283.457,
+      "eval_qnli-contrastive_steps_per_second": 11.338,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_scitail-pairs-qa_loss": 0.07544919103384018,
+      "eval_scitail-pairs-qa_runtime": 0.8732,
+      "eval_scitail-pairs-qa_samples_per_second": 114.517,
+      "eval_scitail-pairs-qa_steps_per_second": 4.581,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_scitail-pairs-pos_loss": 0.5404170751571655,
+      "eval_scitail-pairs-pos_runtime": 1.3146,
+      "eval_scitail-pairs-pos_samples_per_second": 76.067,
+      "eval_scitail-pairs-pos_steps_per_second": 3.043,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_xsum-pairs_loss": 0.25958582758903503,
+      "eval_xsum-pairs_runtime": 0.9287,
+      "eval_xsum-pairs_samples_per_second": 107.679,
+      "eval_xsum-pairs_steps_per_second": 4.307,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_compression-pairs_loss": 0.10066353529691696,
+      "eval_compression-pairs_runtime": 0.2732,
+      "eval_compression-pairs_samples_per_second": 366.076,
+      "eval_compression-pairs_steps_per_second": 14.643,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_sciq_pairs_loss": 0.2645374834537506,
+      "eval_sciq_pairs_runtime": 4.0725,
+      "eval_sciq_pairs_samples_per_second": 24.555,
+      "eval_sciq_pairs_steps_per_second": 0.982,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_qasc_pairs_loss": 0.21021947264671326,
+      "eval_qasc_pairs_runtime": 1.0743,
+      "eval_qasc_pairs_samples_per_second": 93.084,
+      "eval_qasc_pairs_steps_per_second": 3.723,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_openbookqa_pairs_loss": 1.7905032634735107,
+      "eval_openbookqa_pairs_runtime": 0.8886,
+      "eval_openbookqa_pairs_samples_per_second": 112.532,
+      "eval_openbookqa_pairs_steps_per_second": 4.501,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_msmarco_pairs_loss": 0.5102832913398743,
+      "eval_msmarco_pairs_runtime": 2.0529,
+      "eval_msmarco_pairs_samples_per_second": 48.712,
+      "eval_msmarco_pairs_steps_per_second": 1.948,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_nq_pairs_loss": 0.24466972053050995,
+      "eval_nq_pairs_runtime": 4.4973,
+      "eval_nq_pairs_samples_per_second": 22.235,
+      "eval_nq_pairs_steps_per_second": 0.889,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_trivia_pairs_loss": 0.8748095631599426,
+      "eval_trivia_pairs_runtime": 6.4825,
+      "eval_trivia_pairs_samples_per_second": 15.426,
+      "eval_trivia_pairs_steps_per_second": 0.617,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_quora_pairs_loss": 0.07820220291614532,
+      "eval_quora_pairs_runtime": 0.6944,
+      "eval_quora_pairs_samples_per_second": 144.008,
+      "eval_quora_pairs_steps_per_second": 5.76,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_gooaq_pairs_loss": 0.5236212611198425,
+      "eval_gooaq_pairs_runtime": 1.3899,
+      "eval_gooaq_pairs_samples_per_second": 71.949,
+      "eval_gooaq_pairs_steps_per_second": 2.878,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_mrpc_pairs_loss": 0.05494727939367294,
+      "eval_mrpc_pairs_runtime": 0.2598,
+      "eval_mrpc_pairs_samples_per_second": 384.941,
+      "eval_mrpc_pairs_steps_per_second": 15.398,
+      "step": 640
+    },
+    {
+      "epoch": 0.10531264692054537,
+      "grad_norm": 11.01974105834961,
+      "learning_rate": 2.0949895615866387e-05,
+      "loss": 0.9292,
+      "step": 672
+    },
+    {
+      "epoch": 0.11032753486914276,
+      "grad_norm": 0.5542309284210205,
+      "learning_rate": 2.1951983298538625e-05,
+      "loss": 1.3108,
+      "step": 704
+    },
+    {
+      "epoch": 0.11534242281774017,
+      "grad_norm": 15.458569526672363,
+      "learning_rate": 2.2954070981210856e-05,
+      "loss": 0.9674,
+      "step": 736
+    },
+    {
+      "epoch": 0.12035731076633756,
+      "grad_norm": 2.7814478874206543,
+      "learning_rate": 2.395615866388309e-05,
+      "loss": 0.9226,
+      "step": 768
+    },
+    {
+      "epoch": 0.12537219871493496,
+      "grad_norm": 11.393244743347168,
+      "learning_rate": 2.4958246346555324e-05,
+      "loss": 0.789,
+      "step": 800
+    },
+    {
+      "epoch": 0.13038708666353235,
+      "grad_norm": 9.288290977478027,
+      "learning_rate": 2.596033402922756e-05,
+      "loss": 0.5186,
+      "step": 832
+    },
+    {
+      "epoch": 0.13540197461212977,
+      "grad_norm": 47.65571212768555,
+      "learning_rate": 2.6962421711899793e-05,
+      "loss": 0.6726,
+      "step": 864
+    },
+    {
+      "epoch": 0.14041686256072716,
+      "grad_norm": 12.908064842224121,
+      "learning_rate": 2.7964509394572024e-05,
+      "loss": 0.5381,
+      "step": 896
+    },
+    {
+      "epoch": 0.14543175050932455,
+      "grad_norm": 14.951742172241211,
+      "learning_rate": 2.896659707724426e-05,
+      "loss": 0.581,
+      "step": 928
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "grad_norm": 20.12006187438965,
+      "learning_rate": 2.9968684759916492e-05,
+      "loss": 0.9038,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_nli-pairs_loss": 1.2173175811767578,
+      "eval_nli-pairs_runtime": 3.7098,
+      "eval_nli-pairs_samples_per_second": 26.955,
+      "eval_nli-pairs_steps_per_second": 1.078,
+      "eval_sts-test_pearson_cosine": 0.7840992835675669,
+      "eval_sts-test_pearson_dot": 0.5220462136106129,
+      "eval_sts-test_pearson_euclidean": 0.7457350047351855,
+      "eval_sts-test_pearson_manhattan": 0.7425970830541657,
+      "eval_sts-test_pearson_max": 0.7840992835675669,
+      "eval_sts-test_spearman_cosine": 0.8006376809572144,
+      "eval_sts-test_spearman_dot": 0.5020544543992158,
+      "eval_sts-test_spearman_euclidean": 0.7369257710408655,
+      "eval_sts-test_spearman_manhattan": 0.7362649758012406,
+      "eval_sts-test_spearman_max": 0.8006376809572144,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_vitaminc-pairs_loss": 4.774902820587158,
+      "eval_vitaminc-pairs_runtime": 1.1212,
+      "eval_vitaminc-pairs_samples_per_second": 75.809,
+      "eval_vitaminc-pairs_steps_per_second": 2.676,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_sts-label_loss": 3.198556900024414,
+      "eval_sts-label_runtime": 0.2678,
+      "eval_sts-label_samples_per_second": 373.382,
+      "eval_sts-label_steps_per_second": 14.935,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_qnli-contrastive_loss": 0.1943340301513672,
+      "eval_qnli-contrastive_runtime": 0.3511,
+      "eval_qnli-contrastive_samples_per_second": 284.789,
+      "eval_qnli-contrastive_steps_per_second": 11.392,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_scitail-pairs-qa_loss": 0.08060617744922638,
+      "eval_scitail-pairs-qa_runtime": 0.8778,
+      "eval_scitail-pairs-qa_samples_per_second": 113.92,
+      "eval_scitail-pairs-qa_steps_per_second": 4.557,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_scitail-pairs-pos_loss": 0.4759831428527832,
+      "eval_scitail-pairs-pos_runtime": 1.3609,
+      "eval_scitail-pairs-pos_samples_per_second": 73.48,
+      "eval_scitail-pairs-pos_steps_per_second": 2.939,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_xsum-pairs_loss": 0.27583304047584534,
+      "eval_xsum-pairs_runtime": 0.9343,
+      "eval_xsum-pairs_samples_per_second": 107.035,
+      "eval_xsum-pairs_steps_per_second": 4.281,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_compression-pairs_loss": 0.10094660520553589,
+      "eval_compression-pairs_runtime": 0.2739,
+      "eval_compression-pairs_samples_per_second": 365.047,
+      "eval_compression-pairs_steps_per_second": 14.602,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_sciq_pairs_loss": 0.2688131630420685,
+      "eval_sciq_pairs_runtime": 4.0582,
+      "eval_sciq_pairs_samples_per_second": 24.641,
+      "eval_sciq_pairs_steps_per_second": 0.986,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_qasc_pairs_loss": 0.23267821967601776,
+      "eval_qasc_pairs_runtime": 1.0554,
+      "eval_qasc_pairs_samples_per_second": 94.75,
+      "eval_qasc_pairs_steps_per_second": 3.79,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_openbookqa_pairs_loss": 1.8053069114685059,
+      "eval_openbookqa_pairs_runtime": 0.8871,
+      "eval_openbookqa_pairs_samples_per_second": 112.727,
+      "eval_openbookqa_pairs_steps_per_second": 4.509,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_msmarco_pairs_loss": 0.5809260606765747,
+      "eval_msmarco_pairs_runtime": 2.0498,
+      "eval_msmarco_pairs_samples_per_second": 48.786,
+      "eval_msmarco_pairs_steps_per_second": 1.951,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_nq_pairs_loss": 0.2808491885662079,
+      "eval_nq_pairs_runtime": 4.4982,
+      "eval_nq_pairs_samples_per_second": 22.231,
+      "eval_nq_pairs_steps_per_second": 0.889,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_trivia_pairs_loss": 0.9379808902740479,
+      "eval_trivia_pairs_runtime": 6.4578,
+      "eval_trivia_pairs_samples_per_second": 15.485,
+      "eval_trivia_pairs_steps_per_second": 0.619,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_quora_pairs_loss": 0.0913279801607132,
+      "eval_quora_pairs_runtime": 0.6721,
+      "eval_quora_pairs_samples_per_second": 148.79,
+      "eval_quora_pairs_steps_per_second": 5.952,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_gooaq_pairs_loss": 0.5807955265045166,
+      "eval_gooaq_pairs_runtime": 1.3915,
+      "eval_gooaq_pairs_samples_per_second": 71.865,
+      "eval_gooaq_pairs_steps_per_second": 2.875,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_mrpc_pairs_loss": 0.05799216777086258,
+      "eval_mrpc_pairs_runtime": 0.2571,
+      "eval_mrpc_pairs_samples_per_second": 388.998,
+      "eval_mrpc_pairs_steps_per_second": 15.56,
+      "step": 960
+    },
+    {
+      "epoch": 0.15546152640651936,
+      "grad_norm": 9.773286819458008,
+      "learning_rate": 2.9997957904107625e-05,
+      "loss": 0.7964,
+      "step": 992
+    },
+    {
+      "epoch": 0.16047641435511675,
+      "grad_norm": 19.411075592041016,
+      "learning_rate": 2.9991566594209126e-05,
+      "loss": 0.8213,
+      "step": 1024
+    },
+    {
+      "epoch": 0.16549130230371414,
+      "grad_norm": 3.5282175540924072,
+      "learning_rate": 2.9980825799589488e-05,
+      "loss": 0.5396,
+      "step": 1056
+    },
+    {
+      "epoch": 0.17050619025231156,
+      "grad_norm": 62.66339874267578,
+      "learning_rate": 2.996573863646219e-05,
+      "loss": 0.9297,
+      "step": 1088
+    },
+    {
+      "epoch": 0.17552107820090895,
+      "grad_norm": 8.785274505615234,
+      "learning_rate": 2.994630948204727e-05,
+      "loss": 1.169,
+      "step": 1120
+    },
+    {
+      "epoch": 0.18053596614950634,
+      "grad_norm": 24.10859489440918,
+      "learning_rate": 2.992254397330132e-05,
+      "loss": 0.7486,
+      "step": 1152
+    },
+    {
+      "epoch": 0.18555085409810373,
+      "grad_norm": 25.545284271240234,
+      "learning_rate": 2.9894449005282077e-05,
+      "loss": 0.6821,
+      "step": 1184
+    },
+    {
+      "epoch": 0.19056574204670115,
+      "grad_norm": 0.8675521016120911,
+      "learning_rate": 2.9862032729147954e-05,
+      "loss": 0.6125,
+      "step": 1216
+    },
+    {
+      "epoch": 0.19558062999529854,
+      "grad_norm": 16.122114181518555,
+      "learning_rate": 2.9825304549793153e-05,
+      "loss": 0.8061,
+      "step": 1248
+    }
+  ],
+  "logging_steps": 32,
+  "max_steps": 12762,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1277,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1277/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:383c5bf6513da1dfbcd1294f0c8e85ce43118bc61e2de49d9b5d1e28eb653003
+size 5624