First model version

Files changed (12) hide show

added_tokens.json +1 -0
config.json +59 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +1597 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {" <": 32101, " <=": 32100}

config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "_name_or_path": "t5-large",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 4096,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "diversity_penalty": null,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 512,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
+  "use_cache": true,
+  "vocab_size": 32102
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d0b7e5657a1953437527ee78e3282fb37676339c4afc1910f3b14c03a900dcb
+size 5352860

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62bac8d027b874dd15c9402eff5624afd74267ba96cfc88250810f5034440917
+size 2950798215

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:603773effc0f7ff04eb609557f3f0738982f5920d73549bb24dfe07f4b8c3001
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27d9675784a472aa4927d430484a953da123d675b914a1549211c66215c07c19
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"]}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "t5-large", "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1597 @@

+{
+  "best_metric": 0.6431334622823984,
+  "best_model_checkpoint": "/train/checkpoint-960",
+  "epoch": 319.87857142857143,
+  "global_step": 960,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 4.3334,
+      "step": 1
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001,
+      "loss": 3.0753,
+      "step": 4
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0001,
+      "loss": 1.5151,
+      "step": 8
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.0001,
+      "loss": 0.9333,
+      "step": 12
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.0001,
+      "loss": 0.752,
+      "step": 16
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.0001,
+      "loss": 0.5448,
+      "step": 20
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.0001,
+      "loss": 0.462,
+      "step": 24
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.0001,
+      "loss": 0.4756,
+      "step": 28
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 0.0001,
+      "loss": 0.3546,
+      "step": 32
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 0.0001,
+      "loss": 0.3301,
+      "step": 36
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 0.0001,
+      "loss": 0.3248,
+      "step": 40
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 0.0001,
+      "loss": 0.3018,
+      "step": 44
+    },
+    {
+      "epoch": 15.88,
+      "learning_rate": 0.0001,
+      "loss": 0.259,
+      "step": 48
+    },
+    {
+      "epoch": 17.29,
+      "learning_rate": 0.0001,
+      "loss": 0.2618,
+      "step": 52
+    },
+    {
+      "epoch": 18.59,
+      "learning_rate": 0.0001,
+      "loss": 0.2293,
+      "step": 56
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 0.0001,
+      "loss": 0.2112,
+      "step": 60
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 0.0001,
+      "loss": 0.2184,
+      "step": 64
+    },
+    {
+      "epoch": 21.29,
+      "eval_exact_match": 0.41779497098646035,
+      "eval_exec": 0.4632495164410058,
+      "eval_loss": 0.20271794497966766,
+      "eval_runtime": 484.5096,
+      "eval_samples_per_second": 2.134,
+      "step": 64
+    },
+    {
+      "epoch": 22.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1879,
+      "step": 68
+    },
+    {
+      "epoch": 23.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1768,
+      "step": 72
+    },
+    {
+      "epoch": 25.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1749,
+      "step": 76
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1515,
+      "step": 80
+    },
+    {
+      "epoch": 27.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1434,
+      "step": 84
+    },
+    {
+      "epoch": 29.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1509,
+      "step": 88
+    },
+    {
+      "epoch": 30.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1318,
+      "step": 92
+    },
+    {
+      "epoch": 31.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1196,
+      "step": 96
+    },
+    {
+      "epoch": 33.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1206,
+      "step": 100
+    },
+    {
+      "epoch": 34.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1119,
+      "step": 104
+    },
+    {
+      "epoch": 35.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1047,
+      "step": 108
+    },
+    {
+      "epoch": 37.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1066,
+      "step": 112
+    },
+    {
+      "epoch": 38.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0941,
+      "step": 116
+    },
+    {
+      "epoch": 39.88,
+      "learning_rate": 0.0001,
+      "loss": 0.086,
+      "step": 120
+    },
+    {
+      "epoch": 41.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0936,
+      "step": 124
+    },
+    {
+      "epoch": 42.59,
+      "learning_rate": 0.0001,
+      "loss": 0.087,
+      "step": 128
+    },
+    {
+      "epoch": 42.59,
+      "eval_exact_match": 0.5309477756286267,
+      "eval_exec": 0.558027079303675,
+      "eval_loss": 0.1789044588804245,
+      "eval_runtime": 379.4369,
+      "eval_samples_per_second": 2.725,
+      "step": 128
+    },
+    {
+      "epoch": 43.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0758,
+      "step": 132
+    },
+    {
+      "epoch": 45.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0861,
+      "step": 136
+    },
+    {
+      "epoch": 46.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0731,
+      "step": 140
+    },
+    {
+      "epoch": 47.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0699,
+      "step": 144
+    },
+    {
+      "epoch": 49.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0708,
+      "step": 148
+    },
+    {
+      "epoch": 50.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0663,
+      "step": 152
+    },
+    {
+      "epoch": 51.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0666,
+      "step": 156
+    },
+    {
+      "epoch": 53.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0631,
+      "step": 160
+    },
+    {
+      "epoch": 54.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0543,
+      "step": 164
+    },
+    {
+      "epoch": 55.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0534,
+      "step": 168
+    },
+    {
+      "epoch": 57.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0635,
+      "step": 172
+    },
+    {
+      "epoch": 58.59,
+      "learning_rate": 0.0001,
+      "loss": 0.052,
+      "step": 176
+    },
+    {
+      "epoch": 59.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0487,
+      "step": 180
+    },
+    {
+      "epoch": 61.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0509,
+      "step": 184
+    },
+    {
+      "epoch": 62.59,
+      "learning_rate": 0.0001,
+      "loss": 0.047,
+      "step": 188
+    },
+    {
+      "epoch": 63.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0463,
+      "step": 192
+    },
+    {
+      "epoch": 63.88,
+      "eval_exact_match": 0.5880077369439072,
+      "eval_exec": 0.6237911025145068,
+      "eval_loss": 0.1990066021680832,
+      "eval_runtime": 395.2147,
+      "eval_samples_per_second": 2.616,
+      "step": 192
+    },
+    {
+      "epoch": 65.29,
+      "learning_rate": 0.0001,
+      "loss": 0.044,
+      "step": 196
+    },
+    {
+      "epoch": 66.59,
+      "learning_rate": 0.0001,
+      "loss": 0.044,
+      "step": 200
+    },
+    {
+      "epoch": 67.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0364,
+      "step": 204
+    },
+    {
+      "epoch": 69.29,
+      "learning_rate": 0.0001,
+      "loss": 0.039,
+      "step": 208
+    },
+    {
+      "epoch": 70.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0354,
+      "step": 212
+    },
+    {
+      "epoch": 71.88,
+      "learning_rate": 0.0001,
+      "loss": 0.034,
+      "step": 216
+    },
+    {
+      "epoch": 73.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0367,
+      "step": 220
+    },
+    {
+      "epoch": 74.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0317,
+      "step": 224
+    },
+    {
+      "epoch": 75.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0305,
+      "step": 228
+    },
+    {
+      "epoch": 77.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0366,
+      "step": 232
+    },
+    {
+      "epoch": 78.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0265,
+      "step": 236
+    },
+    {
+      "epoch": 79.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0261,
+      "step": 240
+    },
+    {
+      "epoch": 81.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0296,
+      "step": 244
+    },
+    {
+      "epoch": 82.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0269,
+      "step": 248
+    },
+    {
+      "epoch": 83.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0289,
+      "step": 252
+    },
+    {
+      "epoch": 85.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0248,
+      "step": 256
+    },
+    {
+      "epoch": 85.29,
+      "eval_exact_match": 0.597678916827853,
+      "eval_exec": 0.632495164410058,
+      "eval_loss": 0.22355332970619202,
+      "eval_runtime": 439.8485,
+      "eval_samples_per_second": 2.351,
+      "step": 256
+    },
+    {
+      "epoch": 86.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0213,
+      "step": 260
+    },
+    {
+      "epoch": 87.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0243,
+      "step": 264
+    },
+    {
+      "epoch": 89.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0258,
+      "step": 268
+    },
+    {
+      "epoch": 90.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0239,
+      "step": 272
+    },
+    {
+      "epoch": 91.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0184,
+      "step": 276
+    },
+    {
+      "epoch": 93.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0193,
+      "step": 280
+    },
+    {
+      "epoch": 94.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0168,
+      "step": 284
+    },
+    {
+      "epoch": 95.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0174,
+      "step": 288
+    },
+    {
+      "epoch": 97.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0182,
+      "step": 292
+    },
+    {
+      "epoch": 98.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0158,
+      "step": 296
+    },
+    {
+      "epoch": 99.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0158,
+      "step": 300
+    },
+    {
+      "epoch": 101.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0197,
+      "step": 304
+    },
+    {
+      "epoch": 102.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0136,
+      "step": 308
+    },
+    {
+      "epoch": 103.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0141,
+      "step": 312
+    },
+    {
+      "epoch": 105.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0142,
+      "step": 316
+    },
+    {
+      "epoch": 106.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0123,
+      "step": 320
+    },
+    {
+      "epoch": 106.59,
+      "eval_exact_match": 0.6054158607350096,
+      "eval_exec": 0.6402321083172147,
+      "eval_loss": 0.2540315091609955,
+      "eval_runtime": 435.8233,
+      "eval_samples_per_second": 2.373,
+      "step": 320
+    },
+    {
+      "epoch": 107.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0125,
+      "step": 324
+    },
+    {
+      "epoch": 109.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0131,
+      "step": 328
+    },
+    {
+      "epoch": 110.59,
+      "learning_rate": 0.0001,
+      "loss": 0.012,
+      "step": 332
+    },
+    {
+      "epoch": 111.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0116,
+      "step": 336
+    },
+    {
+      "epoch": 113.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0118,
+      "step": 340
+    },
+    {
+      "epoch": 114.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0102,
+      "step": 344
+    },
+    {
+      "epoch": 115.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0099,
+      "step": 348
+    },
+    {
+      "epoch": 117.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0125,
+      "step": 352
+    },
+    {
+      "epoch": 118.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0185,
+      "step": 356
+    },
+    {
+      "epoch": 119.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0203,
+      "step": 360
+    },
+    {
+      "epoch": 121.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0096,
+      "step": 364
+    },
+    {
+      "epoch": 122.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0084,
+      "step": 368
+    },
+    {
+      "epoch": 123.88,
+      "learning_rate": 0.0001,
+      "loss": 0.009,
+      "step": 372
+    },
+    {
+      "epoch": 125.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0234,
+      "step": 376
+    },
+    {
+      "epoch": 126.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0079,
+      "step": 380
+    },
+    {
+      "epoch": 127.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0078,
+      "step": 384
+    },
+    {
+      "epoch": 127.88,
+      "eval_exact_match": 0.6228239845261122,
+      "eval_exec": 0.655705996131528,
+      "eval_loss": 0.25919318199157715,
+      "eval_runtime": 429.4397,
+      "eval_samples_per_second": 2.408,
+      "step": 384
+    },
+    {
+      "epoch": 129.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0082,
+      "step": 388
+    },
+    {
+      "epoch": 130.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0081,
+      "step": 392
+    },
+    {
+      "epoch": 131.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0076,
+      "step": 396
+    },
+    {
+      "epoch": 133.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0073,
+      "step": 400
+    },
+    {
+      "epoch": 134.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0062,
+      "step": 404
+    },
+    {
+      "epoch": 135.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0061,
+      "step": 408
+    },
+    {
+      "epoch": 137.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 412
+    },
+    {
+      "epoch": 138.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0059,
+      "step": 416
+    },
+    {
+      "epoch": 139.88,
+      "learning_rate": 0.0001,
+      "loss": 0.007,
+      "step": 420
+    },
+    {
+      "epoch": 141.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0064,
+      "step": 424
+    },
+    {
+      "epoch": 142.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0052,
+      "step": 428
+    },
+    {
+      "epoch": 143.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 432
+    },
+    {
+      "epoch": 145.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0055,
+      "step": 436
+    },
+    {
+      "epoch": 146.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 440
+    },
+    {
+      "epoch": 147.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0056,
+      "step": 444
+    },
+    {
+      "epoch": 149.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 448
+    },
+    {
+      "epoch": 149.29,
+      "eval_exact_match": 0.6286266924564797,
+      "eval_exec": 0.6595744680851063,
+      "eval_loss": 0.29107969999313354,
+      "eval_runtime": 414.8613,
+      "eval_samples_per_second": 2.492,
+      "step": 448
+    },
+    {
+      "epoch": 150.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0046,
+      "step": 452
+    },
+    {
+      "epoch": 151.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0047,
+      "step": 456
+    },
+    {
+      "epoch": 153.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0048,
+      "step": 460
+    },
+    {
+      "epoch": 154.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0042,
+      "step": 464
+    },
+    {
+      "epoch": 155.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 468
+    },
+    {
+      "epoch": 157.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0049,
+      "step": 472
+    },
+    {
+      "epoch": 158.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 476
+    },
+    {
+      "epoch": 159.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0042,
+      "step": 480
+    },
+    {
+      "epoch": 161.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0041,
+      "step": 484
+    },
+    {
+      "epoch": 162.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 488
+    },
+    {
+      "epoch": 163.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 492
+    },
+    {
+      "epoch": 165.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0043,
+      "step": 496
+    },
+    {
+      "epoch": 166.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 500
+    },
+    {
+      "epoch": 167.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 504
+    },
+    {
+      "epoch": 169.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 508
+    },
+    {
+      "epoch": 170.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0031,
+      "step": 512
+    },
+    {
+      "epoch": 170.59,
+      "eval_exact_match": 0.6189555125725339,
+      "eval_exec": 0.6547388781431335,
+      "eval_loss": 0.30714040994644165,
+      "eval_runtime": 432.9287,
+      "eval_samples_per_second": 2.388,
+      "step": 512
+    },
+    {
+      "epoch": 171.88,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 516
+    },
+    {
+      "epoch": 173.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0042,
+      "step": 520
+    },
+    {
+      "epoch": 174.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0119,
+      "step": 524
+    },
+    {
+      "epoch": 175.88,
+      "learning_rate": 0.0001,
+      "loss": 0.004,
+      "step": 528
+    },
+    {
+      "epoch": 177.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 532
+    },
+    {
+      "epoch": 178.59,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 536
+    },
+    {
+      "epoch": 179.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 540
+    },
+    {
+      "epoch": 181.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 544
+    },
+    {
+      "epoch": 182.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 548
+    },
+    {
+      "epoch": 183.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 552
+    },
+    {
+      "epoch": 185.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 556
+    },
+    {
+      "epoch": 186.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 560
+    },
+    {
+      "epoch": 187.88,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 564
+    },
+    {
+      "epoch": 189.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 568
+    },
+    {
+      "epoch": 190.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 572
+    },
+    {
+      "epoch": 191.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 576
+    },
+    {
+      "epoch": 191.88,
+      "eval_exact_match": 0.6295938104448743,
+      "eval_exec": 0.6634429400386848,
+      "eval_loss": 0.3123248815536499,
+      "eval_runtime": 427.6812,
+      "eval_samples_per_second": 2.418,
+      "step": 576
+    },
+    {
+      "epoch": 193.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 580
+    },
+    {
+      "epoch": 194.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 584
+    },
+    {
+      "epoch": 195.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 588
+    },
+    {
+      "epoch": 197.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 592
+    },
+    {
+      "epoch": 198.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 596
+    },
+    {
+      "epoch": 199.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 600
+    },
+    {
+      "epoch": 201.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 604
+    },
+    {
+      "epoch": 202.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 608
+    },
+    {
+      "epoch": 203.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 612
+    },
+    {
+      "epoch": 205.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 616
+    },
+    {
+      "epoch": 206.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 620
+    },
+    {
+      "epoch": 207.88,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 624
+    },
+    {
+      "epoch": 209.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 628
+    },
+    {
+      "epoch": 210.59,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 632
+    },
+    {
+      "epoch": 211.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 636
+    },
+    {
+      "epoch": 213.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 640
+    },
+    {
+      "epoch": 213.29,
+      "eval_exact_match": 0.6286266924564797,
+      "eval_exec": 0.655705996131528,
+      "eval_loss": 0.3154772222042084,
+      "eval_runtime": 416.5624,
+      "eval_samples_per_second": 2.482,
+      "step": 640
+    },
+    {
+      "epoch": 214.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 644
+    },
+    {
+      "epoch": 215.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 648
+    },
+    {
+      "epoch": 217.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 652
+    },
+    {
+      "epoch": 218.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 656
+    },
+    {
+      "epoch": 219.88,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 660
+    },
+    {
+      "epoch": 221.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 664
+    },
+    {
+      "epoch": 222.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 668
+    },
+    {
+      "epoch": 223.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 672
+    },
+    {
+      "epoch": 225.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 676
+    },
+    {
+      "epoch": 226.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 680
+    },
+    {
+      "epoch": 227.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 684
+    },
+    {
+      "epoch": 229.29,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 688
+    },
+    {
+      "epoch": 230.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 692
+    },
+    {
+      "epoch": 231.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 696
+    },
+    {
+      "epoch": 233.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0121,
+      "step": 700
+    },
+    {
+      "epoch": 234.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 704
+    },
+    {
+      "epoch": 234.59,
+      "eval_exact_match": 0.6373307543520309,
+      "eval_exec": 0.6721470019342359,
+      "eval_loss": 0.31656521558761597,
+      "eval_runtime": 424.2598,
+      "eval_samples_per_second": 2.437,
+      "step": 704
+    },
+    {
+      "epoch": 235.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 708
+    },
+    {
+      "epoch": 237.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 712
+    },
+    {
+      "epoch": 238.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0055,
+      "step": 716
+    },
+    {
+      "epoch": 239.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 720
+    },
+    {
+      "epoch": 241.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 724
+    },
+    {
+      "epoch": 242.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 728
+    },
+    {
+      "epoch": 243.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 732
+    },
+    {
+      "epoch": 245.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 736
+    },
+    {
+      "epoch": 246.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 740
+    },
+    {
+      "epoch": 247.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 744
+    },
+    {
+      "epoch": 249.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 748
+    },
+    {
+      "epoch": 250.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 752
+    },
+    {
+      "epoch": 251.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 756
+    },
+    {
+      "epoch": 253.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 760
+    },
+    {
+      "epoch": 254.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 764
+    },
+    {
+      "epoch": 255.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 768
+    },
+    {
+      "epoch": 255.88,
+      "eval_exact_match": 0.6295938104448743,
+      "eval_exec": 0.6653771760154739,
+      "eval_loss": 0.3407166302204132,
+      "eval_runtime": 416.5111,
+      "eval_samples_per_second": 2.483,
+      "step": 768
+    },
+    {
+      "epoch": 257.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 772
+    },
+    {
+      "epoch": 258.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 776
+    },
+    {
+      "epoch": 259.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0081,
+      "step": 780
+    },
+    {
+      "epoch": 261.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 784
+    },
+    {
+      "epoch": 262.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 788
+    },
+    {
+      "epoch": 263.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 792
+    },
+    {
+      "epoch": 265.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 796
+    },
+    {
+      "epoch": 266.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 800
+    },
+    {
+      "epoch": 267.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 804
+    },
+    {
+      "epoch": 269.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 808
+    },
+    {
+      "epoch": 270.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 812
+    },
+    {
+      "epoch": 271.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 816
+    },
+    {
+      "epoch": 273.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 820
+    },
+    {
+      "epoch": 274.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 824
+    },
+    {
+      "epoch": 275.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 828
+    },
+    {
+      "epoch": 277.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 832
+    },
+    {
+      "epoch": 277.29,
+      "eval_exact_match": 0.6344294003868471,
+      "eval_exec": 0.6653771760154739,
+      "eval_loss": 0.3532732427120209,
+      "eval_runtime": 444.5473,
+      "eval_samples_per_second": 2.326,
+      "step": 832
+    },
+    {
+      "epoch": 278.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 836
+    },
+    {
+      "epoch": 279.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 840
+    },
+    {
+      "epoch": 281.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 844
+    },
+    {
+      "epoch": 282.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 848
+    },
+    {
+      "epoch": 283.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 852
+    },
+    {
+      "epoch": 285.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 856
+    },
+    {
+      "epoch": 286.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 860
+    },
+    {
+      "epoch": 287.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 864
+    },
+    {
+      "epoch": 289.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 868
+    },
+    {
+      "epoch": 290.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 872
+    },
+    {
+      "epoch": 291.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 876
+    },
+    {
+      "epoch": 293.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 880
+    },
+    {
+      "epoch": 294.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 884
+    },
+    {
+      "epoch": 295.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 888
+    },
+    {
+      "epoch": 297.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 892
+    },
+    {
+      "epoch": 298.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 896
+    },
+    {
+      "epoch": 298.59,
+      "eval_exact_match": 0.6373307543520309,
+      "eval_exec": 0.6721470019342359,
+      "eval_loss": 0.35602492094039917,
+      "eval_runtime": 434.7668,
+      "eval_samples_per_second": 2.378,
+      "step": 896
+    },
+    {
+      "epoch": 299.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 900
+    },
+    {
+      "epoch": 301.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 904
+    },
+    {
+      "epoch": 302.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 908
+    },
+    {
+      "epoch": 303.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 912
+    },
+    {
+      "epoch": 305.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 916
+    },
+    {
+      "epoch": 306.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 920
+    },
+    {
+      "epoch": 307.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 924
+    },
+    {
+      "epoch": 309.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 928
+    },
+    {
+      "epoch": 310.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 932
+    },
+    {
+      "epoch": 311.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 936
+    },
+    {
+      "epoch": 313.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 940
+    },
+    {
+      "epoch": 314.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 944
+    },
+    {
+      "epoch": 315.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 948
+    },
+    {
+      "epoch": 317.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 952
+    },
+    {
+      "epoch": 318.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0055,
+      "step": 956
+    },
+    {
+      "epoch": 319.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 960
+    },
+    {
+      "epoch": 319.88,
+      "eval_exact_match": 0.6431334622823984,
+      "eval_exec": 0.6750483558994197,
+      "eval_loss": 0.33101460337638855,
+      "eval_runtime": 445.7155,
+      "eval_samples_per_second": 2.32,
+      "step": 960
+    }
+  ],
+  "max_steps": 9216,
+  "num_train_epochs": 3072,
+  "total_flos": 4.564030172352e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43a9e816a071a3520ac50d13e81a1a4d5a9a589a571b79e9074f5fa1b85004a2
+size 2991