bobox commited on Apr 11

Commit

d6e1f65

verified ·

1 Parent(s): ed48317

Training in progress, step 112, checkpoint

Browse files

Files changed (18) hide show

checkpoint-112/1_AdvancedWeightedPooling/config.json +10 -0
checkpoint-112/1_AdvancedWeightedPooling/pytorch_model.bin +3 -0
checkpoint-112/README.md +0 -0
checkpoint-112/config.json +27 -0
checkpoint-112/config_sentence_transformers.json +10 -0
checkpoint-112/modules.json +14 -0
checkpoint-112/optimizer.pt +3 -0
checkpoint-112/pytorch_model.bin +3 -0
checkpoint-112/rng_state.pth +3 -0
checkpoint-112/scaler.pt +3 -0
checkpoint-112/scheduler.pt +3 -0
checkpoint-112/sentence_bert_config.json +4 -0
checkpoint-112/sentencepiece.bpe.model +3 -0
checkpoint-112/special_tokens_map.json +51 -0
checkpoint-112/tokenizer.json +3 -0
checkpoint-112/tokenizer_config.json +56 -0
checkpoint-112/trainer_state.json +952 -0
checkpoint-112/training_args.bin +3 -0

checkpoint-112/1_AdvancedWeightedPooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "embed_dim": 1024,
+  "num_heads": 8,
+  "dropout": 0.05,
+  "bias": true,
+  "use_layernorm": true,
+  "use_MLP": true,
+  "MLP_h_size": 2048,
+  "use_residual": false
+}

checkpoint-112/1_AdvancedWeightedPooling/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27222186ba8547a23d22f54be8d773b47f63957d774504fdf763120019fe40a2
+size 41992722

checkpoint-112/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-112/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

checkpoint-112/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.4.1",
+    "transformers": "4.51.1",
+    "pytorch": "2.5.1+cu124"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

checkpoint-112/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_AdvancedWeightedPooling",
+    "type": "__main__.AdvancedWeightedPooling"
+  }
+]

checkpoint-112/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8fd9111e48f82d2c7c8758f2b4a38cfacdb7bfbe8223c36da4713177973de791
+size 83986682

checkpoint-112/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e969b03be79a3f792216f1febef058e86c2b7f27374fb1e044d87938ceea1ba
+size 2271151270

checkpoint-112/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edbef4b2e205baafa955cc340f09dce1950158f6958e4321187687836b9435b4
+size 14244

checkpoint-112/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afba8a210f6177200348bfd327c437e1e03a1ba9a0445b261068eed683aa44d8
+size 988

checkpoint-112/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fff05aee53cf63adee7d4b757e500d2f47c668b7b9c1f5451d40f40ef0cbaa51
+size 1000

checkpoint-112/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 8192,
+  "do_lower_case": false
+}

checkpoint-112/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

checkpoint-112/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-112/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
+size 17083053

checkpoint-112/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-112/trainer_state.json ADDED Viewed

	@@ -0,0 +1,952 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.3018867924528302,
+  "eval_steps": 56,
+  "global_step": 112,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0026954177897574125,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 7.8455,
+      "step": 1
+    },
+    {
+      "epoch": 0.005390835579514825,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 10.2716,
+      "step": 2
+    },
+    {
+      "epoch": 0.008086253369272238,
+      "grad_norm": 34.31669235229492,
+      "learning_rate": 0.0,
+      "loss": 8.8104,
+      "step": 3
+    },
+    {
+      "epoch": 0.01078167115902965,
+      "grad_norm": 38.142417907714844,
+      "learning_rate": 4.484304932735426e-06,
+      "loss": 9.723,
+      "step": 4
+    },
+    {
+      "epoch": 0.013477088948787063,
+      "grad_norm": 35.18172073364258,
+      "learning_rate": 8.968609865470853e-06,
+      "loss": 8.2787,
+      "step": 5
+    },
+    {
+      "epoch": 0.016172506738544475,
+      "grad_norm": 23.283090591430664,
+      "learning_rate": 1.345291479820628e-05,
+      "loss": 2.1849,
+      "step": 6
+    },
+    {
+      "epoch": 0.018867924528301886,
+      "grad_norm": 32.1314697265625,
+      "learning_rate": 1.7937219730941705e-05,
+      "loss": 6.9562,
+      "step": 7
+    },
+    {
+      "epoch": 0.0215633423180593,
+      "grad_norm": 38.64030456542969,
+      "learning_rate": 2.242152466367713e-05,
+      "loss": 8.0012,
+      "step": 8
+    },
+    {
+      "epoch": 0.02425876010781671,
+      "grad_norm": 41.87654495239258,
+      "learning_rate": 2.690582959641256e-05,
+      "loss": 7.2178,
+      "step": 9
+    },
+    {
+      "epoch": 0.026954177897574125,
+      "grad_norm": 31.957489013671875,
+      "learning_rate": 3.139013452914798e-05,
+      "loss": 3.7548,
+      "step": 10
+    },
+    {
+      "epoch": 0.029649595687331536,
+      "grad_norm": 17.911823272705078,
+      "learning_rate": 3.587443946188341e-05,
+      "loss": 1.9087,
+      "step": 11
+    },
+    {
+      "epoch": 0.03234501347708895,
+      "grad_norm": 24.171329498291016,
+      "learning_rate": 4.035874439461883e-05,
+      "loss": 2.4871,
+      "step": 12
+    },
+    {
+      "epoch": 0.03504043126684636,
+      "grad_norm": 18.464874267578125,
+      "learning_rate": 4.484304932735426e-05,
+      "loss": 2.0275,
+      "step": 13
+    },
+    {
+      "epoch": 0.03773584905660377,
+      "grad_norm": 11.906213760375977,
+      "learning_rate": 4.9327354260089685e-05,
+      "loss": 1.7456,
+      "step": 14
+    },
+    {
+      "epoch": 0.04043126684636118,
+      "grad_norm": 26.37287712097168,
+      "learning_rate": 5.381165919282512e-05,
+      "loss": 1.8779,
+      "step": 15
+    },
+    {
+      "epoch": 0.0431266846361186,
+      "grad_norm": 14.933402061462402,
+      "learning_rate": 5.829596412556054e-05,
+      "loss": 1.3286,
+      "step": 16
+    },
+    {
+      "epoch": 0.04582210242587601,
+      "grad_norm": 21.439697265625,
+      "learning_rate": 6.278026905829597e-05,
+      "loss": 1.9446,
+      "step": 17
+    },
+    {
+      "epoch": 0.04851752021563342,
+      "grad_norm": 20.07025146484375,
+      "learning_rate": 6.72645739910314e-05,
+      "loss": 1.7784,
+      "step": 18
+    },
+    {
+      "epoch": 0.05121293800539083,
+      "grad_norm": 20.499950408935547,
+      "learning_rate": 7.174887892376682e-05,
+      "loss": 2.2488,
+      "step": 19
+    },
+    {
+      "epoch": 0.05390835579514825,
+      "grad_norm": 16.047183990478516,
+      "learning_rate": 7.623318385650225e-05,
+      "loss": 1.4934,
+      "step": 20
+    },
+    {
+      "epoch": 0.05660377358490566,
+      "grad_norm": 22.647197723388672,
+      "learning_rate": 8.071748878923766e-05,
+      "loss": 1.6026,
+      "step": 21
+    },
+    {
+      "epoch": 0.05929919137466307,
+      "grad_norm": 12.95447063446045,
+      "learning_rate": 8.520179372197309e-05,
+      "loss": 1.1284,
+      "step": 22
+    },
+    {
+      "epoch": 0.06199460916442048,
+      "grad_norm": 14.77773666381836,
+      "learning_rate": 8.968609865470852e-05,
+      "loss": 0.8786,
+      "step": 23
+    },
+    {
+      "epoch": 0.0646900269541779,
+      "grad_norm": 14.360855102539062,
+      "learning_rate": 9.417040358744394e-05,
+      "loss": 0.9379,
+      "step": 24
+    },
+    {
+      "epoch": 0.0673854447439353,
+      "grad_norm": 13.631448745727539,
+      "learning_rate": 9.865470852017937e-05,
+      "loss": 1.4386,
+      "step": 25
+    },
+    {
+      "epoch": 0.07008086253369272,
+      "grad_norm": 14.13251781463623,
+      "learning_rate": 0.00010313901345291481,
+      "loss": 1.4041,
+      "step": 26
+    },
+    {
+      "epoch": 0.07277628032345014,
+      "grad_norm": 8.827373504638672,
+      "learning_rate": 0.00010762331838565024,
+      "loss": 0.5954,
+      "step": 27
+    },
+    {
+      "epoch": 0.07547169811320754,
+      "grad_norm": 14.249119758605957,
+      "learning_rate": 0.00011210762331838565,
+      "loss": 1.0351,
+      "step": 28
+    },
+    {
+      "epoch": 0.07816711590296496,
+      "grad_norm": 12.5848970413208,
+      "learning_rate": 0.00011659192825112108,
+      "loss": 1.1524,
+      "step": 29
+    },
+    {
+      "epoch": 0.08086253369272237,
+      "grad_norm": 7.9695916175842285,
+      "learning_rate": 0.0001210762331838565,
+      "loss": 0.4302,
+      "step": 30
+    },
+    {
+      "epoch": 0.08355795148247978,
+      "grad_norm": 13.62413501739502,
+      "learning_rate": 0.00012556053811659193,
+      "loss": 1.3629,
+      "step": 31
+    },
+    {
+      "epoch": 0.0862533692722372,
+      "grad_norm": 8.850028991699219,
+      "learning_rate": 0.00013004484304932735,
+      "loss": 0.801,
+      "step": 32
+    },
+    {
+      "epoch": 0.0889487870619946,
+      "grad_norm": 8.944876670837402,
+      "learning_rate": 0.0001345291479820628,
+      "loss": 0.7135,
+      "step": 33
+    },
+    {
+      "epoch": 0.09164420485175202,
+      "grad_norm": 12.567760467529297,
+      "learning_rate": 0.00013901345291479823,
+      "loss": 1.0678,
+      "step": 34
+    },
+    {
+      "epoch": 0.09433962264150944,
+      "grad_norm": 10.23857593536377,
+      "learning_rate": 0.00014349775784753364,
+      "loss": 0.8164,
+      "step": 35
+    },
+    {
+      "epoch": 0.09703504043126684,
+      "grad_norm": 12.49679183959961,
+      "learning_rate": 0.00014798206278026908,
+      "loss": 0.7157,
+      "step": 36
+    },
+    {
+      "epoch": 0.09973045822102426,
+      "grad_norm": 8.037866592407227,
+      "learning_rate": 0.0001524663677130045,
+      "loss": 0.4396,
+      "step": 37
+    },
+    {
+      "epoch": 0.10242587601078167,
+      "grad_norm": 9.758255004882812,
+      "learning_rate": 0.0001569506726457399,
+      "loss": 0.9716,
+      "step": 38
+    },
+    {
+      "epoch": 0.10512129380053908,
+      "grad_norm": 10.123546600341797,
+      "learning_rate": 0.00016143497757847532,
+      "loss": 0.9321,
+      "step": 39
+    },
+    {
+      "epoch": 0.1078167115902965,
+      "grad_norm": 8.194007873535156,
+      "learning_rate": 0.00016591928251121076,
+      "loss": 0.5171,
+      "step": 40
+    },
+    {
+      "epoch": 0.1105121293800539,
+      "grad_norm": 13.357998847961426,
+      "learning_rate": 0.00017040358744394618,
+      "loss": 1.9291,
+      "step": 41
+    },
+    {
+      "epoch": 0.11320754716981132,
+      "grad_norm": 12.821917533874512,
+      "learning_rate": 0.00017488789237668162,
+      "loss": 1.0919,
+      "step": 42
+    },
+    {
+      "epoch": 0.11590296495956873,
+      "grad_norm": 15.714422225952148,
+      "learning_rate": 0.00017937219730941703,
+      "loss": 1.4841,
+      "step": 43
+    },
+    {
+      "epoch": 0.11859838274932614,
+      "grad_norm": 9.68891429901123,
+      "learning_rate": 0.00018385650224215247,
+      "loss": 1.1497,
+      "step": 44
+    },
+    {
+      "epoch": 0.12129380053908356,
+      "grad_norm": 11.406339645385742,
+      "learning_rate": 0.00018834080717488789,
+      "loss": 0.7006,
+      "step": 45
+    },
+    {
+      "epoch": 0.12398921832884097,
+      "grad_norm": 13.979656219482422,
+      "learning_rate": 0.00019282511210762333,
+      "loss": 1.7046,
+      "step": 46
+    },
+    {
+      "epoch": 0.12668463611859837,
+      "grad_norm": 11.99986743927002,
+      "learning_rate": 0.00019730941704035874,
+      "loss": 0.8556,
+      "step": 47
+    },
+    {
+      "epoch": 0.1293800539083558,
+      "grad_norm": 13.813502311706543,
+      "learning_rate": 0.00020179372197309418,
+      "loss": 1.6158,
+      "step": 48
+    },
+    {
+      "epoch": 0.1320754716981132,
+      "grad_norm": 10.904289245605469,
+      "learning_rate": 0.00020627802690582962,
+      "loss": 1.3545,
+      "step": 49
+    },
+    {
+      "epoch": 0.1347708894878706,
+      "grad_norm": 10.595293045043945,
+      "learning_rate": 0.00021076233183856503,
+      "loss": 1.0598,
+      "step": 50
+    },
+    {
+      "epoch": 0.13746630727762804,
+      "grad_norm": 11.345131874084473,
+      "learning_rate": 0.00021524663677130048,
+      "loss": 1.3435,
+      "step": 51
+    },
+    {
+      "epoch": 0.14016172506738545,
+      "grad_norm": 7.457268714904785,
+      "learning_rate": 0.00021973094170403586,
+      "loss": 0.5441,
+      "step": 52
+    },
+    {
+      "epoch": 0.14285714285714285,
+      "grad_norm": 11.910417556762695,
+      "learning_rate": 0.0002242152466367713,
+      "loss": 0.8275,
+      "step": 53
+    },
+    {
+      "epoch": 0.14555256064690028,
+      "grad_norm": 9.867291450500488,
+      "learning_rate": 0.00022869955156950672,
+      "loss": 1.0796,
+      "step": 54
+    },
+    {
+      "epoch": 0.14824797843665768,
+      "grad_norm": 10.172917366027832,
+      "learning_rate": 0.00023318385650224216,
+      "loss": 0.9102,
+      "step": 55
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "grad_norm": 8.819664001464844,
+      "learning_rate": 0.00023766816143497757,
+      "loss": 0.6044,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_NLI_loss": 0.7544407844543457,
+      "eval_NLI_runtime": 7.8068,
+      "eval_NLI_samples_per_second": 10.888,
+      "eval_NLI_steps_per_second": 0.128,
+      "eval_Qnli-dev_cosine_accuracy": 0.70703125,
+      "eval_Qnli-dev_cosine_accuracy_threshold": 0.6635605096817017,
+      "eval_Qnli-dev_cosine_ap": 0.7579116921492454,
+      "eval_Qnli-dev_cosine_f1": 0.7244582043343653,
+      "eval_Qnli-dev_cosine_f1_threshold": 0.5038043260574341,
+      "eval_Qnli-dev_cosine_mcc": 0.39539276409398366,
+      "eval_Qnli-dev_cosine_precision": 0.585,
+      "eval_Qnli-dev_cosine_recall": 0.9512195121951219,
+      "eval_allNLI-dev_cosine_accuracy": 0.78125,
+      "eval_allNLI-dev_cosine_accuracy_threshold": 0.7955116629600525,
+      "eval_allNLI-dev_cosine_ap": 0.6859718496364101,
+      "eval_allNLI-dev_cosine_f1": 0.6857142857142857,
+      "eval_allNLI-dev_cosine_f1_threshold": 0.6457934975624084,
+      "eval_allNLI-dev_cosine_mcc": 0.5238511237227645,
+      "eval_allNLI-dev_cosine_precision": 0.5581395348837209,
+      "eval_allNLI-dev_cosine_recall": 0.8888888888888888,
+      "eval_sequential_score": 0.7579116921492454,
+      "eval_sts-test_pearson_cosine": 0.8834267284176791,
+      "eval_sts-test_spearman_cosine": 0.9131686859687813,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_natural-questions_loss": 0.12529510259628296,
+      "eval_natural-questions_runtime": 7.7929,
+      "eval_natural-questions_samples_per_second": 14.5,
+      "eval_natural-questions_steps_per_second": 0.128,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_vitaminc_loss": 1.7376117706298828,
+      "eval_vitaminc_runtime": 1.558,
+      "eval_vitaminc_samples_per_second": 72.527,
+      "eval_vitaminc_steps_per_second": 0.642,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_xsum_loss": 0.30277687311172485,
+      "eval_xsum_runtime": 7.6031,
+      "eval_xsum_samples_per_second": 14.862,
+      "eval_xsum_steps_per_second": 0.132,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_paws_loss": 0.022768845781683922,
+      "eval_paws_runtime": 1.2613,
+      "eval_paws_samples_per_second": 89.589,
+      "eval_paws_steps_per_second": 0.793,
+      "step": 56
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "eval_global_dataset_loss": 0.36483433842658997,
+      "eval_global_dataset_runtime": 17.4308,
+      "eval_global_dataset_samples_per_second": 14.687,
+      "eval_global_dataset_steps_per_second": 0.057,
+      "step": 56
+    },
+    {
+      "epoch": 0.15363881401617252,
+      "grad_norm": 9.806305885314941,
+      "learning_rate": 0.000242152466367713,
+      "loss": 0.6791,
+      "step": 57
+    },
+    {
+      "epoch": 0.15633423180592992,
+      "grad_norm": 13.261207580566406,
+      "learning_rate": 0.0002466367713004484,
+      "loss": 2.0332,
+      "step": 58
+    },
+    {
+      "epoch": 0.15902964959568733,
+      "grad_norm": 12.368124008178711,
+      "learning_rate": 0.00025112107623318387,
+      "loss": 1.6908,
+      "step": 59
+    },
+    {
+      "epoch": 0.16172506738544473,
+      "grad_norm": 12.33912467956543,
+      "learning_rate": 0.0002556053811659193,
+      "loss": 1.9835,
+      "step": 60
+    },
+    {
+      "epoch": 0.16442048517520216,
+      "grad_norm": 6.012735366821289,
+      "learning_rate": 0.0002600896860986547,
+      "loss": 0.5596,
+      "step": 61
+    },
+    {
+      "epoch": 0.16711590296495957,
+      "grad_norm": 7.400477409362793,
+      "learning_rate": 0.00026457399103139013,
+      "loss": 0.5455,
+      "step": 62
+    },
+    {
+      "epoch": 0.16981132075471697,
+      "grad_norm": 11.265143394470215,
+      "learning_rate": 0.0002690582959641256,
+      "loss": 1.4403,
+      "step": 63
+    },
+    {
+      "epoch": 0.1725067385444744,
+      "grad_norm": 10.963008880615234,
+      "learning_rate": 0.000273542600896861,
+      "loss": 1.3612,
+      "step": 64
+    },
+    {
+      "epoch": 0.1752021563342318,
+      "grad_norm": 6.337466716766357,
+      "learning_rate": 0.00027802690582959646,
+      "loss": 0.4134,
+      "step": 65
+    },
+    {
+      "epoch": 0.1778975741239892,
+      "grad_norm": 9.300302505493164,
+      "learning_rate": 0.00028251121076233184,
+      "loss": 1.1737,
+      "step": 66
+    },
+    {
+      "epoch": 0.18059299191374664,
+      "grad_norm": 11.601908683776855,
+      "learning_rate": 0.0002869955156950673,
+      "loss": 0.9298,
+      "step": 67
+    },
+    {
+      "epoch": 0.18328840970350405,
+      "grad_norm": 10.370750427246094,
+      "learning_rate": 0.0002914798206278027,
+      "loss": 1.1334,
+      "step": 68
+    },
+    {
+      "epoch": 0.18598382749326145,
+      "grad_norm": 10.676084518432617,
+      "learning_rate": 0.00029596412556053816,
+      "loss": 1.0759,
+      "step": 69
+    },
+    {
+      "epoch": 0.18867924528301888,
+      "grad_norm": 10.255388259887695,
+      "learning_rate": 0.00030044843049327355,
+      "loss": 0.961,
+      "step": 70
+    },
+    {
+      "epoch": 0.19137466307277629,
+      "grad_norm": 4.847160816192627,
+      "learning_rate": 0.000304932735426009,
+      "loss": 0.329,
+      "step": 71
+    },
+    {
+      "epoch": 0.1940700808625337,
+      "grad_norm": 10.309353828430176,
+      "learning_rate": 0.00030941704035874443,
+      "loss": 1.4607,
+      "step": 72
+    },
+    {
+      "epoch": 0.1967654986522911,
+      "grad_norm": 10.96381664276123,
+      "learning_rate": 0.0003139013452914798,
+      "loss": 1.13,
+      "step": 73
+    },
+    {
+      "epoch": 0.19946091644204852,
+      "grad_norm": 7.316355228424072,
+      "learning_rate": 0.0003183856502242152,
+      "loss": 0.4843,
+      "step": 74
+    },
+    {
+      "epoch": 0.20215633423180593,
+      "grad_norm": 10.928675651550293,
+      "learning_rate": 0.00032286995515695065,
+      "loss": 1.1167,
+      "step": 75
+    },
+    {
+      "epoch": 0.20485175202156333,
+      "grad_norm": 8.18099594116211,
+      "learning_rate": 0.0003273542600896861,
+      "loss": 0.7438,
+      "step": 76
+    },
+    {
+      "epoch": 0.20754716981132076,
+      "grad_norm": 11.222527503967285,
+      "learning_rate": 0.0003318385650224215,
+      "loss": 1.0913,
+      "step": 77
+    },
+    {
+      "epoch": 0.21024258760107817,
+      "grad_norm": 10.6032133102417,
+      "learning_rate": 0.00033632286995515697,
+      "loss": 1.0479,
+      "step": 78
+    },
+    {
+      "epoch": 0.21293800539083557,
+      "grad_norm": 11.290767669677734,
+      "learning_rate": 0.00034080717488789235,
+      "loss": 1.1103,
+      "step": 79
+    },
+    {
+      "epoch": 0.215633423180593,
+      "grad_norm": 9.03909969329834,
+      "learning_rate": 0.0003452914798206278,
+      "loss": 0.9204,
+      "step": 80
+    },
+    {
+      "epoch": 0.2183288409703504,
+      "grad_norm": 10.852116584777832,
+      "learning_rate": 0.00034977578475336324,
+      "loss": 0.9669,
+      "step": 81
+    },
+    {
+      "epoch": 0.2210242587601078,
+      "grad_norm": 10.944169044494629,
+      "learning_rate": 0.0003542600896860987,
+      "loss": 1.6861,
+      "step": 82
+    },
+    {
+      "epoch": 0.22371967654986524,
+      "grad_norm": 8.94461727142334,
+      "learning_rate": 0.00035874439461883406,
+      "loss": 1.076,
+      "step": 83
+    },
+    {
+      "epoch": 0.22641509433962265,
+      "grad_norm": 10.783270835876465,
+      "learning_rate": 0.0003632286995515695,
+      "loss": 1.2668,
+      "step": 84
+    },
+    {
+      "epoch": 0.22911051212938005,
+      "grad_norm": 10.639765739440918,
+      "learning_rate": 0.00036771300448430494,
+      "loss": 1.4458,
+      "step": 85
+    },
+    {
+      "epoch": 0.23180592991913745,
+      "grad_norm": 8.094260215759277,
+      "learning_rate": 0.0003721973094170404,
+      "loss": 1.0282,
+      "step": 86
+    },
+    {
+      "epoch": 0.23450134770889489,
+      "grad_norm": 10.396455764770508,
+      "learning_rate": 0.00037668161434977577,
+      "loss": 0.9422,
+      "step": 87
+    },
+    {
+      "epoch": 0.2371967654986523,
+      "grad_norm": 9.362552642822266,
+      "learning_rate": 0.0003811659192825112,
+      "loss": 0.8485,
+      "step": 88
+    },
+    {
+      "epoch": 0.2398921832884097,
+      "grad_norm": 7.508151531219482,
+      "learning_rate": 0.00038565022421524665,
+      "loss": 0.6634,
+      "step": 89
+    },
+    {
+      "epoch": 0.24258760107816713,
+      "grad_norm": 7.089418888092041,
+      "learning_rate": 0.0003901345291479821,
+      "loss": 0.5559,
+      "step": 90
+    },
+    {
+      "epoch": 0.24528301886792453,
+      "grad_norm": 6.452119827270508,
+      "learning_rate": 0.0003946188340807175,
+      "loss": 0.4284,
+      "step": 91
+    },
+    {
+      "epoch": 0.24797843665768193,
+      "grad_norm": 8.258156776428223,
+      "learning_rate": 0.0003991031390134529,
+      "loss": 0.8843,
+      "step": 92
+    },
+    {
+      "epoch": 0.25067385444743934,
+      "grad_norm": 9.86504077911377,
+      "learning_rate": 0.00040358744394618836,
+      "loss": 1.1379,
+      "step": 93
+    },
+    {
+      "epoch": 0.25336927223719674,
+      "grad_norm": 9.736706733703613,
+      "learning_rate": 0.0004080717488789238,
+      "loss": 0.8325,
+      "step": 94
+    },
+    {
+      "epoch": 0.2560646900269542,
+      "grad_norm": 7.768691539764404,
+      "learning_rate": 0.00041255605381165924,
+      "loss": 0.7055,
+      "step": 95
+    },
+    {
+      "epoch": 0.2587601078167116,
+      "grad_norm": 6.694875717163086,
+      "learning_rate": 0.00041704035874439463,
+      "loss": 0.5176,
+      "step": 96
+    },
+    {
+      "epoch": 0.261455525606469,
+      "grad_norm": 7.5387349128723145,
+      "learning_rate": 0.00042152466367713007,
+      "loss": 0.6018,
+      "step": 97
+    },
+    {
+      "epoch": 0.2641509433962264,
+      "grad_norm": 11.206459045410156,
+      "learning_rate": 0.0004260089686098655,
+      "loss": 1.2091,
+      "step": 98
+    },
+    {
+      "epoch": 0.2668463611859838,
+      "grad_norm": 10.008997917175293,
+      "learning_rate": 0.00043049327354260095,
+      "loss": 1.1578,
+      "step": 99
+    },
+    {
+      "epoch": 0.2695417789757412,
+      "grad_norm": 12.285299301147461,
+      "learning_rate": 0.00043497757847533634,
+      "loss": 1.3774,
+      "step": 100
+    },
+    {
+      "epoch": 0.2722371967654987,
+      "grad_norm": 10.43669605255127,
+      "learning_rate": 0.0004394618834080717,
+      "loss": 1.6864,
+      "step": 101
+    },
+    {
+      "epoch": 0.2749326145552561,
+      "grad_norm": 11.803585052490234,
+      "learning_rate": 0.00044394618834080716,
+      "loss": 1.5131,
+      "step": 102
+    },
+    {
+      "epoch": 0.2776280323450135,
+      "grad_norm": 10.69809341430664,
+      "learning_rate": 0.0004484304932735426,
+      "loss": 1.5626,
+      "step": 103
+    },
+    {
+      "epoch": 0.2803234501347709,
+      "grad_norm": 10.971607208251953,
+      "learning_rate": 0.000452914798206278,
+      "loss": 1.5972,
+      "step": 104
+    },
+    {
+      "epoch": 0.2830188679245283,
+      "grad_norm": 9.838319778442383,
+      "learning_rate": 0.00045739910313901343,
+      "loss": 1.1608,
+      "step": 105
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 10.64057731628418,
+      "learning_rate": 0.0004618834080717489,
+      "loss": 1.7296,
+      "step": 106
+    },
+    {
+      "epoch": 0.2884097035040431,
+      "grad_norm": 9.250954627990723,
+      "learning_rate": 0.0004663677130044843,
+      "loss": 0.7756,
+      "step": 107
+    },
+    {
+      "epoch": 0.29110512129380056,
+      "grad_norm": 10.505428314208984,
+      "learning_rate": 0.00047085201793721975,
+      "loss": 1.4043,
+      "step": 108
+    },
+    {
+      "epoch": 0.29380053908355797,
+      "grad_norm": 9.503642082214355,
+      "learning_rate": 0.00047533632286995514,
+      "loss": 1.0434,
+      "step": 109
+    },
+    {
+      "epoch": 0.29649595687331537,
+      "grad_norm": 10.04104995727539,
+      "learning_rate": 0.0004798206278026906,
+      "loss": 0.7851,
+      "step": 110
+    },
+    {
+      "epoch": 0.2991913746630728,
+      "grad_norm": 8.496233940124512,
+      "learning_rate": 0.000484304932735426,
+      "loss": 0.8959,
+      "step": 111
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "grad_norm": 8.900400161743164,
+      "learning_rate": 0.0004887892376681615,
+      "loss": 1.1451,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_NLI_loss": 0.7853685021400452,
+      "eval_NLI_runtime": 7.7802,
+      "eval_NLI_samples_per_second": 10.925,
+      "eval_NLI_steps_per_second": 0.129,
+      "eval_Qnli-dev_cosine_accuracy": 0.69921875,
+      "eval_Qnli-dev_cosine_accuracy_threshold": 0.6639883518218994,
+      "eval_Qnli-dev_cosine_ap": 0.7520437823272439,
+      "eval_Qnli-dev_cosine_f1": 0.6956521739130435,
+      "eval_Qnli-dev_cosine_f1_threshold": 0.6639883518218994,
+      "eval_Qnli-dev_cosine_mcc": 0.3994014078011956,
+      "eval_Qnli-dev_cosine_precision": 0.676923076923077,
+      "eval_Qnli-dev_cosine_recall": 0.7154471544715447,
+      "eval_allNLI-dev_cosine_accuracy": 0.7734375,
+      "eval_allNLI-dev_cosine_accuracy_threshold": 0.7482618689537048,
+      "eval_allNLI-dev_cosine_ap": 0.6542135747366074,
+      "eval_allNLI-dev_cosine_f1": 0.6769230769230768,
+      "eval_allNLI-dev_cosine_f1_threshold": 0.694869875907898,
+      "eval_allNLI-dev_cosine_mcc": 0.5058060457173612,
+      "eval_allNLI-dev_cosine_precision": 0.5789473684210527,
+      "eval_allNLI-dev_cosine_recall": 0.8148148148148148,
+      "eval_sequential_score": 0.7520437823272439,
+      "eval_sts-test_pearson_cosine": 0.9037962998590239,
+      "eval_sts-test_spearman_cosine": 0.9228968065127588,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_natural-questions_loss": 0.11738906055688858,
+      "eval_natural-questions_runtime": 7.7914,
+      "eval_natural-questions_samples_per_second": 14.503,
+      "eval_natural-questions_steps_per_second": 0.128,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_vitaminc_loss": 2.176020622253418,
+      "eval_vitaminc_runtime": 1.5419,
+      "eval_vitaminc_samples_per_second": 73.285,
+      "eval_vitaminc_steps_per_second": 0.649,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_xsum_loss": 0.14663243293762207,
+      "eval_xsum_runtime": 7.5949,
+      "eval_xsum_samples_per_second": 14.878,
+      "eval_xsum_steps_per_second": 0.132,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_paws_loss": 0.022128984332084656,
+      "eval_paws_runtime": 1.2514,
+      "eval_paws_samples_per_second": 90.302,
+      "eval_paws_steps_per_second": 0.799,
+      "step": 112
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "eval_global_dataset_loss": 0.5730272531509399,
+      "eval_global_dataset_runtime": 17.42,
+      "eval_global_dataset_samples_per_second": 14.696,
+      "eval_global_dataset_steps_per_second": 0.057,
+      "step": 112
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1113,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 112,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-112/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:376f8d1f23e3afc17ce699417922837d0461cc4b226add78679286487de5c3e6
+size 5880