bobox commited on Aug 30, 2024

Commit

61bbb61

verified ·

1 Parent(s): 7c6b2f9

Training in progress, step 387, checkpoint

Browse files

Files changed (17) hide show

checkpoint-387/1_Pooling/config.json +10 -0
checkpoint-387/README.md +0 -0
checkpoint-387/added_tokens.json +3 -0
checkpoint-387/config.json +38 -0
checkpoint-387/config_sentence_transformers.json +10 -0
checkpoint-387/modules.json +14 -0
checkpoint-387/optimizer.pt +3 -0
checkpoint-387/pytorch_model.bin +3 -0
checkpoint-387/rng_state.pth +3 -0
checkpoint-387/scheduler.pt +3 -0
checkpoint-387/sentence_bert_config.json +4 -0
checkpoint-387/special_tokens_map.json +15 -0
checkpoint-387/spm.model +3 -0
checkpoint-387/tokenizer.json +0 -0
checkpoint-387/tokenizer_config.json +58 -0
checkpoint-387/trainer_state.json +745 -0
checkpoint-387/training_args.bin +3 -0

checkpoint-387/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 1536,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-387/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-387/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-387/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "microsoft/deberta-v2-xlarge",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_head_size": 64,
+  "attention_probs_dropout_prob": 0.1,
+  "conv_act": "gelu",
+  "conv_kernel_size": 3,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1536,
+  "initializer_range": 0.02,
+  "intermediate_size": 6144,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1536,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.4",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-387/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.4",
+    "pytorch": "2.4.0+cu121"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-387/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-387/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f44922bc02dadba770b21ec8da4096153d86f2a9174acde5e112b715a8adff71
+size 7077084396

checkpoint-387/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbb393a78debafa192d30d98f9cbce6c8af8b145bc2e6747f2ebb41c0be3481b
+size 3538506546

checkpoint-387/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6055e5d61ef1105743a47fab37b01a482caf029d5010a330b5ae074f081235d6
+size 14244

checkpoint-387/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1688c9ad0e7b899d5c70cc2d961b11a0a2fe65e76a919390b1cfddca41437f4
+size 1064

checkpoint-387/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-387/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-387/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5598d5e96f339a8d980c15f9afd405a2e5e1be7db41de3ed13b0f03fac1e8c17
+size 2447305

checkpoint-387/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-387/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-387/trainer_state.json ADDED Viewed

	@@ -0,0 +1,745 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.20041429311237702,
+  "eval_steps": 97,
+  "global_step": 387,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010357327809425169,
+      "grad_norm": 160.78689575195312,
+      "learning_rate": 3.529411764705882e-07,
+      "loss": 10.2062,
+      "step": 20
+    },
+    {
+      "epoch": 0.020714655618850338,
+      "grad_norm": 303.3471374511719,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 7.9221,
+      "step": 40
+    },
+    {
+      "epoch": 0.031071983428275506,
+      "grad_norm": 81.0146484375,
+      "learning_rate": 1.2235294117647059e-06,
+      "loss": 5.9499,
+      "step": 60
+    },
+    {
+      "epoch": 0.041429311237700675,
+      "grad_norm": 88.74897003173828,
+      "learning_rate": 1.6470588235294118e-06,
+      "loss": 6.0555,
+      "step": 80
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_Qnli-dev_cosine_accuracy": 0.62109375,
+      "eval_Qnli-dev_cosine_accuracy_threshold": 0.9108127355575562,
+      "eval_Qnli-dev_cosine_ap": 0.6197524033200674,
+      "eval_Qnli-dev_cosine_f1": 0.6396396396396397,
+      "eval_Qnli-dev_cosine_f1_threshold": 0.8376526832580566,
+      "eval_Qnli-dev_cosine_precision": 0.49534883720930234,
+      "eval_Qnli-dev_cosine_recall": 0.902542372881356,
+      "eval_Qnli-dev_dot_accuracy": 0.58984375,
+      "eval_Qnli-dev_dot_accuracy_threshold": 865.2555541992188,
+      "eval_Qnli-dev_dot_ap": 0.5567642852275692,
+      "eval_Qnli-dev_dot_f1": 0.6363636363636364,
+      "eval_Qnli-dev_dot_f1_threshold": 691.9456787109375,
+      "eval_Qnli-dev_dot_precision": 0.47863247863247865,
+      "eval_Qnli-dev_dot_recall": 0.9491525423728814,
+      "eval_Qnli-dev_euclidean_accuracy": 0.609375,
+      "eval_Qnli-dev_euclidean_accuracy_threshold": 13.323524475097656,
+      "eval_Qnli-dev_euclidean_ap": 0.6115116478210071,
+      "eval_Qnli-dev_euclidean_f1": 0.6449612403100775,
+      "eval_Qnli-dev_euclidean_f1_threshold": 16.585830688476562,
+      "eval_Qnli-dev_euclidean_precision": 0.508557457212714,
+      "eval_Qnli-dev_euclidean_recall": 0.8813559322033898,
+      "eval_Qnli-dev_manhattan_accuracy": 0.619140625,
+      "eval_Qnli-dev_manhattan_accuracy_threshold": 406.1038818359375,
+      "eval_Qnli-dev_manhattan_ap": 0.609904024113499,
+      "eval_Qnli-dev_manhattan_f1": 0.6494345718901454,
+      "eval_Qnli-dev_manhattan_f1_threshold": 484.52716064453125,
+      "eval_Qnli-dev_manhattan_precision": 0.5248041775456919,
+      "eval_Qnli-dev_manhattan_recall": 0.8516949152542372,
+      "eval_Qnli-dev_max_accuracy": 0.62109375,
+      "eval_Qnli-dev_max_accuracy_threshold": 865.2555541992188,
+      "eval_Qnli-dev_max_ap": 0.6197524033200674,
+      "eval_Qnli-dev_max_f1": 0.6494345718901454,
+      "eval_Qnli-dev_max_f1_threshold": 691.9456787109375,
+      "eval_Qnli-dev_max_precision": 0.5248041775456919,
+      "eval_Qnli-dev_max_recall": 0.9491525423728814,
+      "eval_allNLI-dev_cosine_accuracy": 0.67578125,
+      "eval_allNLI-dev_cosine_accuracy_threshold": 0.9652533531188965,
+      "eval_allNLI-dev_cosine_ap": 0.4282858392784667,
+      "eval_allNLI-dev_cosine_f1": 0.515527950310559,
+      "eval_allNLI-dev_cosine_f1_threshold": 0.798592746257782,
+      "eval_allNLI-dev_cosine_precision": 0.3524416135881104,
+      "eval_allNLI-dev_cosine_recall": 0.9595375722543352,
+      "eval_allNLI-dev_dot_accuracy": 0.666015625,
+      "eval_allNLI-dev_dot_accuracy_threshold": 968.9529418945312,
+      "eval_allNLI-dev_dot_ap": 0.36425260705842155,
+      "eval_allNLI-dev_dot_f1": 0.5162287480680062,
+      "eval_allNLI-dev_dot_f1_threshold": 686.5814208984375,
+      "eval_allNLI-dev_dot_precision": 0.35232067510548526,
+      "eval_allNLI-dev_dot_recall": 0.9653179190751445,
+      "eval_allNLI-dev_euclidean_accuracy": 0.67578125,
+      "eval_allNLI-dev_euclidean_accuracy_threshold": 8.16073226928711,
+      "eval_allNLI-dev_euclidean_ap": 0.4333583117036793,
+      "eval_allNLI-dev_euclidean_f1": 0.5164319248826291,
+      "eval_allNLI-dev_euclidean_f1_threshold": 18.877037048339844,
+      "eval_allNLI-dev_euclidean_precision": 0.3540772532188841,
+      "eval_allNLI-dev_euclidean_recall": 0.953757225433526,
+      "eval_allNLI-dev_manhattan_accuracy": 0.67578125,
+      "eval_allNLI-dev_manhattan_accuracy_threshold": 226.18099975585938,
+      "eval_allNLI-dev_manhattan_ap": 0.4400955405569059,
+      "eval_allNLI-dev_manhattan_f1": 0.5179407176287052,
+      "eval_allNLI-dev_manhattan_f1_threshold": 570.2012329101562,
+      "eval_allNLI-dev_manhattan_precision": 0.3547008547008547,
+      "eval_allNLI-dev_manhattan_recall": 0.9595375722543352,
+      "eval_allNLI-dev_max_accuracy": 0.67578125,
+      "eval_allNLI-dev_max_accuracy_threshold": 968.9529418945312,
+      "eval_allNLI-dev_max_ap": 0.4400955405569059,
+      "eval_allNLI-dev_max_f1": 0.5179407176287052,
+      "eval_allNLI-dev_max_f1_threshold": 686.5814208984375,
+      "eval_allNLI-dev_max_precision": 0.3547008547008547,
+      "eval_allNLI-dev_max_recall": 0.9653179190751445,
+      "eval_sequential_score": 0.6197524033200674,
+      "eval_sts-test_pearson_cosine": 0.6170839897033953,
+      "eval_sts-test_pearson_dot": 0.43346770865150264,
+      "eval_sts-test_pearson_euclidean": 0.6474775644966124,
+      "eval_sts-test_pearson_manhattan": 0.6616828287248389,
+      "eval_sts-test_pearson_max": 0.6616828287248389,
+      "eval_sts-test_spearman_cosine": 0.6552392427969004,
+      "eval_sts-test_spearman_dot": 0.4585595522909849,
+      "eval_sts-test_spearman_euclidean": 0.652406174691995,
+      "eval_sts-test_spearman_manhattan": 0.6662387448368152,
+      "eval_sts-test_spearman_max": 0.6662387448368152,
+      "eval_vitaminc-pairs_loss": 3.7554073333740234,
+      "eval_vitaminc-pairs_runtime": 4.7418,
+      "eval_vitaminc-pairs_samples_per_second": 26.994,
+      "eval_vitaminc-pairs_steps_per_second": 0.211,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_negation-triplets_loss": 3.6897997856140137,
+      "eval_negation-triplets_runtime": 3.1578,
+      "eval_negation-triplets_samples_per_second": 40.534,
+      "eval_negation-triplets_steps_per_second": 0.317,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_scitail-pairs-pos_loss": 0.45563364028930664,
+      "eval_scitail-pairs-pos_runtime": 2.7223,
+      "eval_scitail-pairs-pos_samples_per_second": 47.02,
+      "eval_scitail-pairs-pos_steps_per_second": 0.367,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_scitail-pairs-qa_loss": 1.115855097770691,
+      "eval_scitail-pairs-qa_runtime": 2.2597,
+      "eval_scitail-pairs-qa_samples_per_second": 56.646,
+      "eval_scitail-pairs-qa_steps_per_second": 0.443,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_xsum-pairs_loss": 3.2118453979492188,
+      "eval_xsum-pairs_runtime": 3.0538,
+      "eval_xsum-pairs_samples_per_second": 41.915,
+      "eval_xsum-pairs_steps_per_second": 0.327,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_sciq_pairs_loss": 0.484823614358902,
+      "eval_sciq_pairs_runtime": 3.959,
+      "eval_sciq_pairs_samples_per_second": 32.331,
+      "eval_sciq_pairs_steps_per_second": 0.253,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_qasc_pairs_loss": 2.8566131591796875,
+      "eval_qasc_pairs_runtime": 2.1087,
+      "eval_qasc_pairs_samples_per_second": 60.701,
+      "eval_qasc_pairs_steps_per_second": 0.474,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_openbookqa_pairs_loss": 2.1501104831695557,
+      "eval_openbookqa_pairs_runtime": 2.2555,
+      "eval_openbookqa_pairs_samples_per_second": 56.751,
+      "eval_openbookqa_pairs_steps_per_second": 0.443,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_msmarco_pairs_loss": 4.395960807800293,
+      "eval_msmarco_pairs_runtime": 2.2407,
+      "eval_msmarco_pairs_samples_per_second": 57.125,
+      "eval_msmarco_pairs_steps_per_second": 0.446,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_nq_pairs_loss": 4.488173484802246,
+      "eval_nq_pairs_runtime": 2.7484,
+      "eval_nq_pairs_samples_per_second": 46.572,
+      "eval_nq_pairs_steps_per_second": 0.364,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_trivia_pairs_loss": 4.023955345153809,
+      "eval_trivia_pairs_runtime": 3.7908,
+      "eval_trivia_pairs_samples_per_second": 33.766,
+      "eval_trivia_pairs_steps_per_second": 0.264,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_gooaq_pairs_loss": 3.383638858795166,
+      "eval_gooaq_pairs_runtime": 2.1349,
+      "eval_gooaq_pairs_samples_per_second": 59.957,
+      "eval_gooaq_pairs_steps_per_second": 0.468,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_paws-pos_loss": 0.12275903671979904,
+      "eval_paws-pos_runtime": 2.2818,
+      "eval_paws-pos_samples_per_second": 56.095,
+      "eval_paws-pos_steps_per_second": 0.438,
+      "step": 97
+    },
+    {
+      "epoch": 0.050233039875712066,
+      "eval_global_dataset_loss": 1.9564138650894165,
+      "eval_global_dataset_runtime": 10.2217,
+      "eval_global_dataset_samples_per_second": 40.698,
+      "eval_global_dataset_steps_per_second": 0.391,
+      "step": 97
+    },
+    {
+      "epoch": 0.05178663904712584,
+      "grad_norm": 83.8360824584961,
+      "learning_rate": 2.1176470588235296e-06,
+      "loss": 4.0315,
+      "step": 100
+    },
+    {
+      "epoch": 0.06214396685655101,
+      "grad_norm": 325.5680236816406,
+      "learning_rate": 2.588235294117647e-06,
+      "loss": 1.6348,
+      "step": 120
+    },
+    {
+      "epoch": 0.07250129466597618,
+      "grad_norm": 106.99758911132812,
+      "learning_rate": 3.0588235294117647e-06,
+      "loss": 1.1866,
+      "step": 140
+    },
+    {
+      "epoch": 0.08285862247540135,
+      "grad_norm": 30.390771865844727,
+      "learning_rate": 3.5294117647058825e-06,
+      "loss": 0.6138,
+      "step": 160
+    },
+    {
+      "epoch": 0.09321595028482652,
+      "grad_norm": 39.691532135009766,
+      "learning_rate": 4e-06,
+      "loss": 0.5244,
+      "step": 180
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_Qnli-dev_cosine_accuracy": 0.666015625,
+      "eval_Qnli-dev_cosine_accuracy_threshold": 0.7696025967597961,
+      "eval_Qnli-dev_cosine_ap": 0.693851901846308,
+      "eval_Qnli-dev_cosine_f1": 0.6625000000000001,
+      "eval_Qnli-dev_cosine_f1_threshold": 0.6638460159301758,
+      "eval_Qnli-dev_cosine_precision": 0.5247524752475248,
+      "eval_Qnli-dev_cosine_recall": 0.8983050847457628,
+      "eval_Qnli-dev_dot_accuracy": 0.6796875,
+      "eval_Qnli-dev_dot_accuracy_threshold": 822.6981201171875,
+      "eval_Qnli-dev_dot_ap": 0.6603086879421342,
+      "eval_Qnli-dev_dot_f1": 0.657856093979442,
+      "eval_Qnli-dev_dot_f1_threshold": 618.4547119140625,
+      "eval_Qnli-dev_dot_precision": 0.503370786516854,
+      "eval_Qnli-dev_dot_recall": 0.9491525423728814,
+      "eval_Qnli-dev_euclidean_accuracy": 0.666015625,
+      "eval_Qnli-dev_euclidean_accuracy_threshold": 19.874027252197266,
+      "eval_Qnli-dev_euclidean_ap": 0.694158709095853,
+      "eval_Qnli-dev_euclidean_f1": 0.6630236794171221,
+      "eval_Qnli-dev_euclidean_f1_threshold": 23.005264282226562,
+      "eval_Qnli-dev_euclidean_precision": 0.5814696485623003,
+      "eval_Qnli-dev_euclidean_recall": 0.7711864406779662,
+      "eval_Qnli-dev_manhattan_accuracy": 0.66796875,
+      "eval_Qnli-dev_manhattan_accuracy_threshold": 624.285888671875,
+      "eval_Qnli-dev_manhattan_ap": 0.692633721446368,
+      "eval_Qnli-dev_manhattan_f1": 0.6641366223908918,
+      "eval_Qnli-dev_manhattan_f1_threshold": 696.709716796875,
+      "eval_Qnli-dev_manhattan_precision": 0.6013745704467354,
+      "eval_Qnli-dev_manhattan_recall": 0.7415254237288136,
+      "eval_Qnli-dev_max_accuracy": 0.6796875,
+      "eval_Qnli-dev_max_accuracy_threshold": 822.6981201171875,
+      "eval_Qnli-dev_max_ap": 0.694158709095853,
+      "eval_Qnli-dev_max_f1": 0.6641366223908918,
+      "eval_Qnli-dev_max_f1_threshold": 696.709716796875,
+      "eval_Qnli-dev_max_precision": 0.6013745704467354,
+      "eval_Qnli-dev_max_recall": 0.9491525423728814,
+      "eval_allNLI-dev_cosine_accuracy": 0.701171875,
+      "eval_allNLI-dev_cosine_accuracy_threshold": 0.854247510433197,
+      "eval_allNLI-dev_cosine_ap": 0.5504250327111149,
+      "eval_allNLI-dev_cosine_f1": 0.567287784679089,
+      "eval_allNLI-dev_cosine_f1_threshold": 0.7080726623535156,
+      "eval_allNLI-dev_cosine_precision": 0.44193548387096776,
+      "eval_allNLI-dev_cosine_recall": 0.791907514450867,
+      "eval_allNLI-dev_dot_accuracy": 0.69921875,
+      "eval_allNLI-dev_dot_accuracy_threshold": 885.8963623046875,
+      "eval_allNLI-dev_dot_ap": 0.5371398846089106,
+      "eval_allNLI-dev_dot_f1": 0.5720338983050848,
+      "eval_allNLI-dev_dot_f1_threshold": 732.1597290039062,
+      "eval_allNLI-dev_dot_precision": 0.451505016722408,
+      "eval_allNLI-dev_dot_recall": 0.7803468208092486,
+      "eval_allNLI-dev_euclidean_accuracy": 0.701171875,
+      "eval_allNLI-dev_euclidean_accuracy_threshold": 16.9801082611084,
+      "eval_allNLI-dev_euclidean_ap": 0.5503780840587245,
+      "eval_allNLI-dev_euclidean_f1": 0.5671641791044777,
+      "eval_allNLI-dev_euclidean_f1_threshold": 24.19074821472168,
+      "eval_allNLI-dev_euclidean_precision": 0.44932432432432434,
+      "eval_allNLI-dev_euclidean_recall": 0.7687861271676301,
+      "eval_allNLI-dev_manhattan_accuracy": 0.703125,
+      "eval_allNLI-dev_manhattan_accuracy_threshold": 529.9462280273438,
+      "eval_allNLI-dev_manhattan_ap": 0.5524969745859143,
+      "eval_allNLI-dev_manhattan_f1": 0.5638297872340425,
+      "eval_allNLI-dev_manhattan_f1_threshold": 826.8560791015625,
+      "eval_allNLI-dev_manhattan_precision": 0.40664961636828645,
+      "eval_allNLI-dev_manhattan_recall": 0.9190751445086706,
+      "eval_allNLI-dev_max_accuracy": 0.703125,
+      "eval_allNLI-dev_max_accuracy_threshold": 885.8963623046875,
+      "eval_allNLI-dev_max_ap": 0.5524969745859143,
+      "eval_allNLI-dev_max_f1": 0.5720338983050848,
+      "eval_allNLI-dev_max_f1_threshold": 826.8560791015625,
+      "eval_allNLI-dev_max_precision": 0.451505016722408,
+      "eval_allNLI-dev_max_recall": 0.9190751445086706,
+      "eval_sequential_score": 0.694158709095853,
+      "eval_sts-test_pearson_cosine": 0.8866994033223972,
+      "eval_sts-test_pearson_dot": 0.8712266973511624,
+      "eval_sts-test_pearson_euclidean": 0.9028053322103908,
+      "eval_sts-test_pearson_manhattan": 0.9029714248344419,
+      "eval_sts-test_pearson_max": 0.9029714248344419,
+      "eval_sts-test_spearman_cosine": 0.8941879764786184,
+      "eval_sts-test_spearman_dot": 0.8632849034222648,
+      "eval_sts-test_spearman_euclidean": 0.8944520984233506,
+      "eval_sts-test_spearman_manhattan": 0.8945218656398598,
+      "eval_sts-test_spearman_max": 0.8945218656398598,
+      "eval_vitaminc-pairs_loss": 3.507073163986206,
+      "eval_vitaminc-pairs_runtime": 4.4774,
+      "eval_vitaminc-pairs_samples_per_second": 28.588,
+      "eval_vitaminc-pairs_steps_per_second": 0.223,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_negation-triplets_loss": 1.1223009824752808,
+      "eval_negation-triplets_runtime": 3.102,
+      "eval_negation-triplets_samples_per_second": 41.264,
+      "eval_negation-triplets_steps_per_second": 0.322,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_scitail-pairs-pos_loss": 0.06560208648443222,
+      "eval_scitail-pairs-pos_runtime": 2.6151,
+      "eval_scitail-pairs-pos_samples_per_second": 48.946,
+      "eval_scitail-pairs-pos_steps_per_second": 0.382,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_scitail-pairs-qa_loss": 0.044671397656202316,
+      "eval_scitail-pairs-qa_runtime": 2.2115,
+      "eval_scitail-pairs-qa_samples_per_second": 57.879,
+      "eval_scitail-pairs-qa_steps_per_second": 0.452,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_xsum-pairs_loss": 0.07691845297813416,
+      "eval_xsum-pairs_runtime": 3.043,
+      "eval_xsum-pairs_samples_per_second": 42.064,
+      "eval_xsum-pairs_steps_per_second": 0.329,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_sciq_pairs_loss": 0.12039273232221603,
+      "eval_sciq_pairs_runtime": 3.878,
+      "eval_sciq_pairs_samples_per_second": 33.007,
+      "eval_sciq_pairs_steps_per_second": 0.258,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_qasc_pairs_loss": 0.36198654770851135,
+      "eval_qasc_pairs_runtime": 2.0543,
+      "eval_qasc_pairs_samples_per_second": 62.307,
+      "eval_qasc_pairs_steps_per_second": 0.487,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_openbookqa_pairs_loss": 0.5711529850959778,
+      "eval_openbookqa_pairs_runtime": 2.2213,
+      "eval_openbookqa_pairs_samples_per_second": 57.624,
+      "eval_openbookqa_pairs_steps_per_second": 0.45,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_msmarco_pairs_loss": 0.3250836133956909,
+      "eval_msmarco_pairs_runtime": 2.22,
+      "eval_msmarco_pairs_samples_per_second": 57.657,
+      "eval_msmarco_pairs_steps_per_second": 0.45,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_nq_pairs_loss": 0.4249531030654907,
+      "eval_nq_pairs_runtime": 2.7189,
+      "eval_nq_pairs_samples_per_second": 47.079,
+      "eval_nq_pairs_steps_per_second": 0.368,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_trivia_pairs_loss": 0.2965388894081116,
+      "eval_trivia_pairs_runtime": 3.7556,
+      "eval_trivia_pairs_samples_per_second": 34.082,
+      "eval_trivia_pairs_steps_per_second": 0.266,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_gooaq_pairs_loss": 0.2151084989309311,
+      "eval_gooaq_pairs_runtime": 2.1122,
+      "eval_gooaq_pairs_samples_per_second": 60.601,
+      "eval_gooaq_pairs_steps_per_second": 0.473,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_paws-pos_loss": 0.0295370165258646,
+      "eval_paws-pos_runtime": 2.2123,
+      "eval_paws-pos_samples_per_second": 57.86,
+      "eval_paws-pos_steps_per_second": 0.452,
+      "step": 194
+    },
+    {
+      "epoch": 0.10046607975142413,
+      "eval_global_dataset_loss": 0.35498398542404175,
+      "eval_global_dataset_runtime": 10.1407,
+      "eval_global_dataset_samples_per_second": 41.023,
+      "eval_global_dataset_steps_per_second": 0.394,
+      "step": 194
+    },
+    {
+      "epoch": 0.10357327809425168,
+      "grad_norm": 43.11693572998047,
+      "learning_rate": 4.470588235294118e-06,
+      "loss": 0.376,
+      "step": 200
+    },
+    {
+      "epoch": 0.11393060590367685,
+      "grad_norm": 31.125375747680664,
+      "learning_rate": 4.941176470588235e-06,
+      "loss": 0.2782,
+      "step": 220
+    },
+    {
+      "epoch": 0.12428793371310203,
+      "grad_norm": 14.048110961914062,
+      "learning_rate": 5.411764705882353e-06,
+      "loss": 0.2391,
+      "step": 240
+    },
+    {
+      "epoch": 0.13464526152252718,
+      "grad_norm": 5.956579685211182,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 0.2767,
+      "step": 260
+    },
+    {
+      "epoch": 0.14500258933195237,
+      "grad_norm": 14.470146179199219,
+      "learning_rate": 6.352941176470589e-06,
+      "loss": 0.2359,
+      "step": 280
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_Qnli-dev_cosine_accuracy": 0.6875,
+      "eval_Qnli-dev_cosine_accuracy_threshold": 0.7567152976989746,
+      "eval_Qnli-dev_cosine_ap": 0.7133123361631746,
+      "eval_Qnli-dev_cosine_f1": 0.6853146853146853,
+      "eval_Qnli-dev_cosine_f1_threshold": 0.6536699533462524,
+      "eval_Qnli-dev_cosine_precision": 0.5833333333333334,
+      "eval_Qnli-dev_cosine_recall": 0.8305084745762712,
+      "eval_Qnli-dev_dot_accuracy": 0.673828125,
+      "eval_Qnli-dev_dot_accuracy_threshold": 731.5150756835938,
+      "eval_Qnli-dev_dot_ap": 0.6890325242500185,
+      "eval_Qnli-dev_dot_f1": 0.6782006920415226,
+      "eval_Qnli-dev_dot_f1_threshold": 621.156982421875,
+      "eval_Qnli-dev_dot_precision": 0.5730994152046783,
+      "eval_Qnli-dev_dot_recall": 0.8305084745762712,
+      "eval_Qnli-dev_euclidean_accuracy": 0.6875,
+      "eval_Qnli-dev_euclidean_accuracy_threshold": 21.166996002197266,
+      "eval_Qnli-dev_euclidean_ap": 0.717782618584373,
+      "eval_Qnli-dev_euclidean_f1": 0.6832740213523131,
+      "eval_Qnli-dev_euclidean_f1_threshold": 25.534191131591797,
+      "eval_Qnli-dev_euclidean_precision": 0.588957055214724,
+      "eval_Qnli-dev_euclidean_recall": 0.8135593220338984,
+      "eval_Qnli-dev_manhattan_accuracy": 0.689453125,
+      "eval_Qnli-dev_manhattan_accuracy_threshold": 717.0855712890625,
+      "eval_Qnli-dev_manhattan_ap": 0.7178394918687495,
+      "eval_Qnli-dev_manhattan_f1": 0.6815068493150686,
+      "eval_Qnli-dev_manhattan_f1_threshold": 809.9966430664062,
+      "eval_Qnli-dev_manhattan_precision": 0.5718390804597702,
+      "eval_Qnli-dev_manhattan_recall": 0.8432203389830508,
+      "eval_Qnli-dev_max_accuracy": 0.689453125,
+      "eval_Qnli-dev_max_accuracy_threshold": 731.5150756835938,
+      "eval_Qnli-dev_max_ap": 0.7178394918687495,
+      "eval_Qnli-dev_max_f1": 0.6853146853146853,
+      "eval_Qnli-dev_max_f1_threshold": 809.9966430664062,
+      "eval_Qnli-dev_max_precision": 0.588957055214724,
+      "eval_Qnli-dev_max_recall": 0.8432203389830508,
+      "eval_allNLI-dev_cosine_accuracy": 0.71484375,
+      "eval_allNLI-dev_cosine_accuracy_threshold": 0.8485724329948425,
+      "eval_allNLI-dev_cosine_ap": 0.5777522094864251,
+      "eval_allNLI-dev_cosine_f1": 0.5925925925925926,
+      "eval_allNLI-dev_cosine_f1_threshold": 0.7124052047729492,
+      "eval_allNLI-dev_cosine_precision": 0.4942084942084942,
+      "eval_allNLI-dev_cosine_recall": 0.7398843930635838,
+      "eval_allNLI-dev_dot_accuracy": 0.71484375,
+      "eval_allNLI-dev_dot_accuracy_threshold": 835.6192016601562,
+      "eval_allNLI-dev_dot_ap": 0.5708546535940942,
+      "eval_allNLI-dev_dot_f1": 0.5931372549019609,
+      "eval_allNLI-dev_dot_f1_threshold": 712.94482421875,
+      "eval_allNLI-dev_dot_precision": 0.5148936170212766,
+      "eval_allNLI-dev_dot_recall": 0.6994219653179191,
+      "eval_allNLI-dev_euclidean_accuracy": 0.712890625,
+      "eval_allNLI-dev_euclidean_accuracy_threshold": 15.772256851196289,
+      "eval_allNLI-dev_euclidean_ap": 0.5773033114664347,
+      "eval_allNLI-dev_euclidean_f1": 0.5957446808510639,
+      "eval_allNLI-dev_euclidean_f1_threshold": 24.513042449951172,
+      "eval_allNLI-dev_euclidean_precision": 0.4713804713804714,
+      "eval_allNLI-dev_euclidean_recall": 0.8092485549132948,
+      "eval_allNLI-dev_manhattan_accuracy": 0.71484375,
+      "eval_allNLI-dev_manhattan_accuracy_threshold": 494.4720153808594,
+      "eval_allNLI-dev_manhattan_ap": 0.5787277750430182,
+      "eval_allNLI-dev_manhattan_f1": 0.597457627118644,
+      "eval_allNLI-dev_manhattan_f1_threshold": 764.1075439453125,
+      "eval_allNLI-dev_manhattan_precision": 0.47157190635451507,
+      "eval_allNLI-dev_manhattan_recall": 0.815028901734104,
+      "eval_allNLI-dev_max_accuracy": 0.71484375,
+      "eval_allNLI-dev_max_accuracy_threshold": 835.6192016601562,
+      "eval_allNLI-dev_max_ap": 0.5787277750430182,
+      "eval_allNLI-dev_max_f1": 0.597457627118644,
+      "eval_allNLI-dev_max_f1_threshold": 764.1075439453125,
+      "eval_allNLI-dev_max_precision": 0.5148936170212766,
+      "eval_allNLI-dev_max_recall": 0.815028901734104,
+      "eval_sequential_score": 0.7178394918687495,
+      "eval_sts-test_pearson_cosine": 0.9080888281681364,
+      "eval_sts-test_pearson_dot": 0.8993720999648187,
+      "eval_sts-test_pearson_euclidean": 0.9185021221297063,
+      "eval_sts-test_pearson_manhattan": 0.9182084064307341,
+      "eval_sts-test_pearson_max": 0.9185021221297063,
+      "eval_sts-test_spearman_cosine": 0.9145502926755805,
+      "eval_sts-test_spearman_dot": 0.8990795555767088,
+      "eval_sts-test_spearman_euclidean": 0.9143005806370166,
+      "eval_sts-test_spearman_manhattan": 0.9141107457861942,
+      "eval_sts-test_spearman_max": 0.9145502926755805,
+      "eval_vitaminc-pairs_loss": 3.4645299911499023,
+      "eval_vitaminc-pairs_runtime": 4.4497,
+      "eval_vitaminc-pairs_samples_per_second": 28.766,
+      "eval_vitaminc-pairs_steps_per_second": 0.225,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_negation-triplets_loss": 0.8774887323379517,
+      "eval_negation-triplets_runtime": 3.1401,
+      "eval_negation-triplets_samples_per_second": 40.764,
+      "eval_negation-triplets_steps_per_second": 0.318,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_scitail-pairs-pos_loss": 0.029673559591174126,
+      "eval_scitail-pairs-pos_runtime": 2.6642,
+      "eval_scitail-pairs-pos_samples_per_second": 48.044,
+      "eval_scitail-pairs-pos_steps_per_second": 0.375,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_scitail-pairs-qa_loss": 0.011800204403698444,
+      "eval_scitail-pairs-qa_runtime": 2.1861,
+      "eval_scitail-pairs-qa_samples_per_second": 58.551,
+      "eval_scitail-pairs-qa_steps_per_second": 0.457,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_xsum-pairs_loss": 0.017930012196302414,
+      "eval_xsum-pairs_runtime": 3.0255,
+      "eval_xsum-pairs_samples_per_second": 42.307,
+      "eval_xsum-pairs_steps_per_second": 0.331,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_sciq_pairs_loss": 0.09765021502971649,
+      "eval_sciq_pairs_runtime": 3.8726,
+      "eval_sciq_pairs_samples_per_second": 33.053,
+      "eval_sciq_pairs_steps_per_second": 0.258,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_qasc_pairs_loss": 0.3064229488372803,
+      "eval_qasc_pairs_runtime": 2.1307,
+      "eval_qasc_pairs_samples_per_second": 60.075,
+      "eval_qasc_pairs_steps_per_second": 0.469,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_openbookqa_pairs_loss": 0.46111759543418884,
+      "eval_openbookqa_pairs_runtime": 2.2685,
+      "eval_openbookqa_pairs_samples_per_second": 56.424,
+      "eval_openbookqa_pairs_steps_per_second": 0.441,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_msmarco_pairs_loss": 0.08168309926986694,
+      "eval_msmarco_pairs_runtime": 2.2657,
+      "eval_msmarco_pairs_samples_per_second": 56.495,
+      "eval_msmarco_pairs_steps_per_second": 0.441,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_nq_pairs_loss": 0.13220462203025818,
+      "eval_nq_pairs_runtime": 2.7139,
+      "eval_nq_pairs_samples_per_second": 47.164,
+      "eval_nq_pairs_steps_per_second": 0.368,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_trivia_pairs_loss": 0.1532345414161682,
+      "eval_trivia_pairs_runtime": 3.76,
+      "eval_trivia_pairs_samples_per_second": 34.043,
+      "eval_trivia_pairs_steps_per_second": 0.266,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_gooaq_pairs_loss": 0.10126010328531265,
+      "eval_gooaq_pairs_runtime": 2.1372,
+      "eval_gooaq_pairs_samples_per_second": 59.892,
+      "eval_gooaq_pairs_steps_per_second": 0.468,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_paws-pos_loss": 0.021147189661860466,
+      "eval_paws-pos_runtime": 2.2138,
+      "eval_paws-pos_samples_per_second": 57.819,
+      "eval_paws-pos_steps_per_second": 0.452,
+      "step": 291
+    },
+    {
+      "epoch": 0.1506991196271362,
+      "eval_global_dataset_loss": 0.2509276270866394,
+      "eval_global_dataset_runtime": 10.154,
+      "eval_global_dataset_samples_per_second": 40.969,
+      "eval_global_dataset_steps_per_second": 0.394,
+      "step": 291
+    },
+    {
+      "epoch": 0.15535991714137753,
+      "grad_norm": 6.319842338562012,
+      "learning_rate": 6.823529411764706e-06,
+      "loss": 0.1505,
+      "step": 300
+    },
+    {
+      "epoch": 0.1657172449508027,
+      "grad_norm": 16.11246109008789,
+      "learning_rate": 7.294117647058823e-06,
+      "loss": 0.1473,
+      "step": 320
+    },
+    {
+      "epoch": 0.17607457276022787,
+      "grad_norm": 9.587472915649414,
+      "learning_rate": 7.764705882352943e-06,
+      "loss": 0.1614,
+      "step": 340
+    },
+    {
+      "epoch": 0.18643190056965303,
+      "grad_norm": 21.551036834716797,
+      "learning_rate": 8.23529411764706e-06,
+      "loss": 0.1834,
+      "step": 360
+    },
+    {
+      "epoch": 0.1967892283790782,
+      "grad_norm": 7.1668548583984375,
+      "learning_rate": 8.705882352941177e-06,
+      "loss": 0.164,
+      "step": 380
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 3862,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 387,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-387/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6afbd3ad35d0a5a9ae1e51fcec7df790b982c51eacf41bfffb4163061732d175
+size 5560