Initial commit

Browse files

Files changed (11) hide show

all_results.json +14 -0
config.json +32 -0
generation_config.json +10 -0
pytorch_model.bin +3 -0
special_tokens_map.json +6 -0
test_results.json +9 -0
tokenizer.json +177 -0
tokenizer_config.json +10 -0
train_results.json +8 -0
trainer_state.json +1042 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 43.0,
+    "perplexity": 1.1020061050262677,
+    "test_accuracy": 0.5884773413073098,
+    "test_loss": 0.09713225066661835,
+    "test_runtime": 9.4021,
+    "test_samples_per_second": 248.562,
+    "test_steps_per_second": 15.635,
+    "train_loss": 0.2331255912600619,
+    "train_runtime": 2746.0841,
+    "train_samples": 7878,
+    "train_samples_per_second": 143.441,
+    "train_steps_per_second": 4.479
+}

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 0,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 1,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 144,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 896,
+  "pad_token": " ",
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.27.1",
+  "use_cache": true,
+  "vocab_size": 52
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_sample": true,
+  "eos_token_id": 1,
+  "length_penalty": 0.0,
+  "max_new_tokens": 896,
+  "min_new_tokens": 1,
+  "num_return_sequences": 100,
+  "pad_token_id": 2,
+  "transformers_version": "4.27.1"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:731f207586a9dda4728f79a89e66fbbe0cc2b23b3921ec47fe995fc5aeb2c63b
+size 22270333

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "^",
+  "eos_token": "_",
+  "pad_token": " ",
+  "unk_token": "§"
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 43.0,
+    "perplexity": 1.1020061050262677,
+    "test_accuracy": 0.5884773413073098,
+    "test_loss": 0.09713225066661835,
+    "test_runtime": 9.4021,
+    "test_samples_per_second": 248.562,
+    "test_steps_per_second": 15.635
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,177 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [
+    {
+      "id": 0,
+      "content": "^",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 1,
+      "content": "_",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 2,
+      "content": " ",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 3,
+      "content": "§",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 4,
+      "content": "°",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    }
+  ],
+  "normalizer": null,
+  "pre_tokenizer": {
+    "type": "Split",
+    "pattern": {
+      "Regex": ""
+    },
+    "behavior": "Isolated",
+    "invert": false
+  },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "^",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "_",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "^": {
+        "id": "^",
+        "ids": [
+          0
+        ],
+        "tokens": [
+          "^"
+        ]
+      },
+      "_": {
+        "id": "_",
+        "ids": [
+          1
+        ],
+        "tokens": [
+          "_"
+        ]
+      }
+    }
+  },
+  "decoder": null,
+  "model": {
+    "type": "WordLevel",
+    "vocab": {
+      "^": 0,
+      "_": 1,
+      " ": 2,
+      "§": 3,
+      "°": 4,
+      ":": 5,
+      ";": 6,
+      "[": 7,
+      "]": 8,
+      "0": 9,
+      "-": 10,
+      "1": 11,
+      "H": 12,
+      "D": 13,
+      "C": 14,
+      "2": 15,
+      "c": 16,
+      "3": 17,
+      "+": 18,
+      "7": 19,
+      "(": 20,
+      ")": 21,
+      "#": 22,
+      "O": 23,
+      "4": 24,
+      "a": 25,
+      ">": 26,
+      "=": 27,
+      "6": 28,
+      "5": 29,
+      "8": 30,
+      "N": 31,
+      ".": 32,
+      "9": 33,
+      "B": 34,
+      "l": 35,
+      "n": 36,
+      "r": 37,
+      "S": 38,
+      "F": 39,
+      "/": 40,
+      "@": 41,
+      "I": 42,
+      "\\": 43,
+      "P": 44,
+      "M": 45,
+      "g": 46,
+      "s": 47,
+      "Z": 48,
+      "i": 49,
+      "o": 50,
+      "u": 51
+    },
+    "unk_token": "§"
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token": "^",
+  "eos_token": "_",
+  "model_max_length": 896,
+  "pad_token": " ",
+  "padding_side": "right",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "truncation_side": "left",
+  "unk_token": "§"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 43.0,
+    "train_loss": 0.2331255912600619,
+    "train_runtime": 2746.0841,
+    "train_samples": 7878,
+    "train_samples_per_second": 143.441,
+    "train_steps_per_second": 4.479
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1042 @@

+{
+  "best_metric": 0.0970187559723854,
+  "best_model_checkpoint": "/home/stephan/code/molreactgen/checkpoints/2023-05-12_13-06-58_experiment/checkpoint-9850",
+  "epoch": 42.99695431472081,
+  "global_step": 10588,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.065040650406504e-05,
+      "loss": 3.0981,
+      "step": 100
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.130081300813008e-05,
+      "loss": 2.1418,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2829720403871191,
+      "eval_loss": 1.5341426134109497,
+      "eval_runtime": 6.1779,
+      "eval_samples_per_second": 390.745,
+      "eval_steps_per_second": 24.442,
+      "step": 246
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00012195121951219512,
+      "loss": 1.588,
+      "step": 300
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00016260162601626016,
+      "loss": 1.1354,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.32898021613845974,
+      "eval_loss": 0.7312331795692444,
+      "eval_runtime": 6.0715,
+      "eval_samples_per_second": 397.598,
+      "eval_steps_per_second": 24.87,
+      "step": 492
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002032520325203252,
+      "loss": 0.8911,
+      "step": 500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00024390243902439024,
+      "loss": 0.743,
+      "step": 600
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0002845528455284553,
+      "loss": 0.664,
+      "step": 700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3475759534583064,
+      "eval_loss": 0.5133360028266907,
+      "eval_runtime": 6.1012,
+      "eval_samples_per_second": 395.662,
+      "eval_steps_per_second": 24.749,
+      "step": 738
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 0.0003252032520325203,
+      "loss": 0.6077,
+      "step": 800
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.00036585365853658537,
+      "loss": 0.5517,
+      "step": 900
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.35866693372907127,
+      "eval_loss": 0.40151524543762207,
+      "eval_runtime": 6.0531,
+      "eval_samples_per_second": 398.803,
+      "eval_steps_per_second": 24.946,
+      "step": 985
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 0.0004065040650406504,
+      "loss": 0.5002,
+      "step": 1000
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 0.00044715447154471545,
+      "loss": 0.4461,
+      "step": 1100
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 0.0004878048780487805,
+      "loss": 0.3986,
+      "step": 1200
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.36889936906506915,
+      "eval_loss": 0.30596020817756653,
+      "eval_runtime": 6.0649,
+      "eval_samples_per_second": 398.03,
+      "eval_steps_per_second": 24.897,
+      "step": 1231
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 0.0004999506716812021,
+      "loss": 0.3583,
+      "step": 1300
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.0004997091104496882,
+      "loss": 0.3313,
+      "step": 1400
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.3759261451059297,
+      "eval_loss": 0.241128608584404,
+      "eval_runtime": 6.1261,
+      "eval_samples_per_second": 394.054,
+      "eval_steps_per_second": 24.649,
+      "step": 1477
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 0.0004992664502959351,
+      "loss": 0.3005,
+      "step": 1500
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 0.0004986230477086575,
+      "loss": 0.2758,
+      "step": 1600
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 0.0004977794208410241,
+      "loss": 0.259,
+      "step": 1700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.3807942678696614,
+      "eval_loss": 0.19934649765491486,
+      "eval_runtime": 6.0599,
+      "eval_samples_per_second": 398.358,
+      "eval_steps_per_second": 24.918,
+      "step": 1723
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.0004967362490933723,
+      "loss": 0.2409,
+      "step": 1800
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 0.0004954943725660643,
+      "loss": 0.2288,
+      "step": 1900
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.38369857151961545,
+      "eval_loss": 0.17374461889266968,
+      "eval_runtime": 6.1335,
+      "eval_samples_per_second": 393.573,
+      "eval_steps_per_second": 24.619,
+      "step": 1970
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 0.0004940547913829275,
+      "loss": 0.2201,
+      "step": 2000
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 0.0004924186648858207,
+      "loss": 0.2064,
+      "step": 2100
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 0.0004905873107009799,
+      "loss": 0.1992,
+      "step": 2200
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.385633256552892,
+      "eval_loss": 0.15620127320289612,
+      "eval_runtime": 6.1272,
+      "eval_samples_per_second": 393.981,
+      "eval_steps_per_second": 24.644,
+      "step": 2216
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 0.0004885622036778897,
+      "loss": 0.1894,
+      "step": 2300
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0004863449747015384,
+      "loss": 0.182,
+      "step": 2400
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.38733486894215974,
+      "eval_loss": 0.1415354460477829,
+      "eval_runtime": 6.1286,
+      "eval_samples_per_second": 393.894,
+      "eval_steps_per_second": 24.639,
+      "step": 2462
+    },
+    {
+      "epoch": 10.15,
+      "learning_rate": 0.0004839374093790139,
+      "loss": 0.181,
+      "step": 2500
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 0.00048134144660149535,
+      "loss": 0.1695,
+      "step": 2600
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 0.0004785591769828005,
+      "loss": 0.1687,
+      "step": 2700
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.3880878028351102,
+      "eval_loss": 0.13479964435100555,
+      "eval_runtime": 6.1178,
+      "eval_samples_per_second": 394.588,
+      "eval_steps_per_second": 24.682,
+      "step": 2708
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 0.00047559284117574613,
+      "loss": 0.1629,
+      "step": 2800
+    },
+    {
+      "epoch": 11.78,
+      "learning_rate": 0.0004724448280676768,
+      "loss": 0.1592,
+      "step": 2900
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.38904467529156844,
+      "eval_loss": 0.12684421241283417,
+      "eval_runtime": 6.118,
+      "eval_samples_per_second": 394.571,
+      "eval_steps_per_second": 24.681,
+      "step": 2955
+    },
+    {
+      "epoch": 12.18,
+      "learning_rate": 0.00046911767285661587,
+      "loss": 0.1527,
+      "step": 3000
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 0.0004656140550095876,
+      "loss": 0.1516,
+      "step": 3100
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 0.00046193679610475414,
+      "loss": 0.1476,
+      "step": 3200
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.3893742545772372,
+      "eval_loss": 0.12305640429258347,
+      "eval_runtime": 6.1457,
+      "eval_samples_per_second": 392.794,
+      "eval_steps_per_second": 24.57,
+      "step": 3201
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 0.0004580888575591068,
+      "loss": 0.1447,
+      "step": 3300
+    },
+    {
+      "epoch": 13.81,
+      "learning_rate": 0.00045407333824353966,
+      "loss": 0.1417,
+      "step": 3400
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.3899678614674472,
+      "eval_loss": 0.11744081974029541,
+      "eval_runtime": 6.1575,
+      "eval_samples_per_second": 392.044,
+      "eval_steps_per_second": 24.523,
+      "step": 3447
+    },
+    {
+      "epoch": 14.21,
+      "learning_rate": 0.00044989347198722777,
+      "loss": 0.1412,
+      "step": 3500
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 0.00044555262497331783,
+      "loss": 0.1403,
+      "step": 3600
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.3901754417910176,
+      "eval_loss": 0.11636122316122055,
+      "eval_runtime": 6.1213,
+      "eval_samples_per_second": 394.36,
+      "eval_steps_per_second": 24.668,
+      "step": 3693
+    },
+    {
+      "epoch": 15.03,
+      "learning_rate": 0.0004410542930280316,
+      "loss": 0.1354,
+      "step": 3700
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 0.0004364020988053623,
+      "loss": 0.1314,
+      "step": 3800
+    },
+    {
+      "epoch": 15.84,
+      "learning_rate": 0.00043159978886963223,
+      "loss": 0.1342,
+      "step": 3900
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.3905068419567177,
+      "eval_loss": 0.11423930525779724,
+      "eval_runtime": 6.1098,
+      "eval_samples_per_second": 395.1,
+      "eval_steps_per_second": 24.714,
+      "step": 3940
+    },
+    {
+      "epoch": 16.24,
+      "learning_rate": 0.0004266512306782628,
+      "loss": 0.1307,
+      "step": 4000
+    },
+    {
+      "epoch": 16.65,
+      "learning_rate": 0.00042156040946718344,
+      "loss": 0.1273,
+      "step": 4100
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.39085189872265264,
+      "eval_loss": 0.1110914945602417,
+      "eval_runtime": 6.0921,
+      "eval_samples_per_second": 396.254,
+      "eval_steps_per_second": 24.786,
+      "step": 4186
+    },
+    {
+      "epoch": 17.06,
+      "learning_rate": 0.00041633142504139133,
+      "loss": 0.128,
+      "step": 4200
+    },
+    {
+      "epoch": 17.46,
+      "learning_rate": 0.00041096848847324417,
+      "loss": 0.1247,
+      "step": 4300
+    },
+    {
+      "epoch": 17.87,
+      "learning_rate": 0.0004054759187111451,
+      "loss": 0.1243,
+      "step": 4400
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.39107313564645796,
+      "eval_loss": 0.10974010080099106,
+      "eval_runtime": 6.1271,
+      "eval_samples_per_second": 393.988,
+      "eval_steps_per_second": 24.645,
+      "step": 4432
+    },
+    {
+      "epoch": 18.27,
+      "learning_rate": 0.00039985813910135305,
+      "loss": 0.1231,
+      "step": 4500
+    },
+    {
+      "epoch": 18.68,
+      "learning_rate": 0.00039411967382571643,
+      "loss": 0.1205,
+      "step": 4600
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.39124429836940194,
+      "eval_loss": 0.10775511711835861,
+      "eval_runtime": 6.146,
+      "eval_samples_per_second": 392.775,
+      "eval_steps_per_second": 24.569,
+      "step": 4678
+    },
+    {
+      "epoch": 19.09,
+      "learning_rate": 0.0003882651442582019,
+      "loss": 0.1193,
+      "step": 4700
+    },
+    {
+      "epoch": 19.49,
+      "learning_rate": 0.00038229926524315015,
+      "loss": 0.1175,
+      "step": 4800
+    },
+    {
+      "epoch": 19.9,
+      "learning_rate": 0.0003762268412982577,
+      "loss": 0.1202,
+      "step": 4900
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.3915374600544443,
+      "eval_loss": 0.10535065084695816,
+      "eval_runtime": 6.1087,
+      "eval_samples_per_second": 395.174,
+      "eval_steps_per_second": 24.719,
+      "step": 4925
+    },
+    {
+      "epoch": 20.3,
+      "learning_rate": 0.00037005276274534144,
+      "loss": 0.1151,
+      "step": 5000
+    },
+    {
+      "epoch": 20.71,
+      "learning_rate": 0.0003637820017720022,
+      "loss": 0.1146,
+      "step": 5100
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.39146917705326983,
+      "eval_loss": 0.10494475811719894,
+      "eval_runtime": 6.135,
+      "eval_samples_per_second": 393.48,
+      "eval_steps_per_second": 24.613,
+      "step": 5171
+    },
+    {
+      "epoch": 21.12,
+      "learning_rate": 0.00035741960842735953,
+      "loss": 0.1152,
+      "step": 5200
+    },
+    {
+      "epoch": 21.52,
+      "learning_rate": 0.0003509707065550817,
+      "loss": 0.1133,
+      "step": 5300
+    },
+    {
+      "epoch": 21.93,
+      "learning_rate": 0.00034444048966698643,
+      "loss": 0.1119,
+      "step": 5400
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.39147099793330115,
+      "eval_loss": 0.10487605631351471,
+      "eval_runtime": 6.1054,
+      "eval_samples_per_second": 395.389,
+      "eval_steps_per_second": 24.732,
+      "step": 5417
+    },
+    {
+      "epoch": 22.34,
+      "learning_rate": 0.0003378342167605362,
+      "loss": 0.11,
+      "step": 5500
+    },
+    {
+      "epoch": 22.74,
+      "learning_rate": 0.00033115720808359495,
+      "loss": 0.1107,
+      "step": 5600
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.39174139861795204,
+      "eval_loss": 0.10271785408258438,
+      "eval_runtime": 6.1004,
+      "eval_samples_per_second": 395.715,
+      "eval_steps_per_second": 24.753,
+      "step": 5663
+    },
+    {
+      "epoch": 23.15,
+      "learning_rate": 0.0003244148408498587,
+      "loss": 0.1095,
+      "step": 5700
+    },
+    {
+      "epoch": 23.55,
+      "learning_rate": 0.000317612544908409,
+      "loss": 0.1067,
+      "step": 5800
+    },
+    {
+      "epoch": 23.96,
+      "learning_rate": 0.000310755798370878,
+      "loss": 0.1085,
+      "step": 5900
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.391701339257263,
+      "eval_loss": 0.10227391123771667,
+      "eval_runtime": 6.1722,
+      "eval_samples_per_second": 391.109,
+      "eval_steps_per_second": 24.465,
+      "step": 5910
+    },
+    {
+      "epoch": 24.37,
+      "learning_rate": 0.00030385012319974537,
+      "loss": 0.1055,
+      "step": 6000
+    },
+    {
+      "epoch": 24.77,
+      "learning_rate": 0.00029690108076132154,
+      "loss": 0.1068,
+      "step": 6100
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.3917787266585941,
+      "eval_loss": 0.10184060782194138,
+      "eval_runtime": 6.1443,
+      "eval_samples_per_second": 392.883,
+      "eval_steps_per_second": 24.576,
+      "step": 6156
+    },
+    {
+      "epoch": 25.18,
+      "learning_rate": 0.0002899142673469971,
+      "loss": 0.1049,
+      "step": 6200
+    },
+    {
+      "epoch": 25.58,
+      "learning_rate": 0.00028289530966636625,
+      "loss": 0.1038,
+      "step": 6300
+    },
+    {
+      "epoch": 25.99,
+      "learning_rate": 0.000275849860315853,
+      "loss": 0.1045,
+      "step": 6400
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.3920181723827126,
+      "eval_loss": 0.1005973368883133,
+      "eval_runtime": 6.0791,
+      "eval_samples_per_second": 397.098,
+      "eval_steps_per_second": 24.839,
+      "step": 6402
+    },
+    {
+      "epoch": 26.4,
+      "learning_rate": 0.0002687835932264908,
+      "loss": 0.1008,
+      "step": 6500
+    },
+    {
+      "epoch": 26.8,
+      "learning_rate": 0.0002617021990945197,
+      "loss": 0.1022,
+      "step": 6600
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.39193259102124056,
+      "eval_loss": 0.10028840601444244,
+      "eval_runtime": 6.0776,
+      "eval_samples_per_second": 397.197,
+      "eval_steps_per_second": 24.845,
+      "step": 6648
+    },
+    {
+      "epoch": 27.21,
+      "learning_rate": 0.0002546113807984821,
+      "loss": 0.1011,
+      "step": 6700
+    },
+    {
+      "epoch": 27.61,
+      "learning_rate": 0.00024751684880650884,
+      "loss": 0.0995,
+      "step": 6800
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.39223394666642386,
+      "eval_loss": 0.09900100529193878,
+      "eval_runtime": 6.1395,
+      "eval_samples_per_second": 393.191,
+      "eval_steps_per_second": 24.595,
+      "step": 6895
+    },
+    {
+      "epoch": 28.02,
+      "learning_rate": 0.00024042431657749118,
+      "loss": 0.1009,
+      "step": 6900
+    },
+    {
+      "epoch": 28.43,
+      "learning_rate": 0.0002333394959598461,
+      "loss": 0.0977,
+      "step": 7000
+    },
+    {
+      "epoch": 28.83,
+      "learning_rate": 0.00022626809259157726,
+      "loss": 0.0989,
+      "step": 7100
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.39221664830612635,
+      "eval_loss": 0.09937664866447449,
+      "eval_runtime": 6.1179,
+      "eval_samples_per_second": 394.581,
+      "eval_steps_per_second": 24.682,
+      "step": 7141
+    },
+    {
+      "epoch": 29.24,
+      "learning_rate": 0.00021921580130533828,
+      "loss": 0.0977,
+      "step": 7200
+    },
+    {
+      "epoch": 29.64,
+      "learning_rate": 0.0002121883015421973,
+      "loss": 0.0975,
+      "step": 7300
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.3923249906679898,
+      "eval_loss": 0.09780476242303848,
+      "eval_runtime": 6.0619,
+      "eval_samples_per_second": 398.224,
+      "eval_steps_per_second": 24.91,
+      "step": 7387
+    },
+    {
+      "epoch": 30.05,
+      "learning_rate": 0.00020519125277779733,
+      "loss": 0.0964,
+      "step": 7400
+    },
+    {
+      "epoch": 30.46,
+      "learning_rate": 0.00019823028996459485,
+      "loss": 0.0941,
+      "step": 7500
+    },
+    {
+      "epoch": 30.86,
+      "learning_rate": 0.00019131101899384867,
+      "loss": 0.0956,
+      "step": 7600
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.39216930542531203,
+      "eval_loss": 0.0990176796913147,
+      "eval_runtime": 6.1212,
+      "eval_samples_per_second": 394.37,
+      "eval_steps_per_second": 24.669,
+      "step": 7633
+    },
+    {
+      "epoch": 31.27,
+      "learning_rate": 0.00018443901218101152,
+      "loss": 0.0942,
+      "step": 7700
+    },
+    {
+      "epoch": 31.68,
+      "learning_rate": 0.00017761980377816285,
+      "loss": 0.0931,
+      "step": 7800
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.39236231870863186,
+      "eval_loss": 0.09768786281347275,
+      "eval_runtime": 6.0866,
+      "eval_samples_per_second": 396.608,
+      "eval_steps_per_second": 24.809,
+      "step": 7880
+    },
+    {
+      "epoch": 32.08,
+      "learning_rate": 0.00017085888551709338,
+      "loss": 0.0945,
+      "step": 7900
+    },
+    {
+      "epoch": 32.49,
+      "learning_rate": 0.00016416170218663446,
+      "loss": 0.0916,
+      "step": 8000
+    },
+    {
+      "epoch": 32.89,
+      "learning_rate": 0.0001575336472477909,
+      "loss": 0.0926,
+      "step": 8100
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.3922312153463769,
+      "eval_loss": 0.09789934009313583,
+      "eval_runtime": 6.1446,
+      "eval_samples_per_second": 392.866,
+      "eval_steps_per_second": 24.574,
+      "step": 8126
+    },
+    {
+      "epoch": 33.3,
+      "learning_rate": 0.0001509800584902108,
+      "loss": 0.0912,
+      "step": 8200
+    },
+    {
+      "epoch": 33.71,
+      "learning_rate": 0.00014450621373348819,
+      "loss": 0.0908,
+      "step": 8300
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.3923732439888198,
+      "eval_loss": 0.09784437716007233,
+      "eval_runtime": 6.1319,
+      "eval_samples_per_second": 393.678,
+      "eval_steps_per_second": 24.625,
+      "step": 8372
+    },
+    {
+      "epoch": 34.11,
+      "learning_rate": 0.0001381173265767623,
+      "loss": 0.0905,
+      "step": 8400
+    },
+    {
+      "epoch": 34.52,
+      "learning_rate": 0.00013181854220003567,
+      "loss": 0.0895,
+      "step": 8500
+    },
+    {
+      "epoch": 34.92,
+      "learning_rate": 0.00012561493322059202,
+      "loss": 0.0896,
+      "step": 8600
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.3924324225898377,
+      "eval_loss": 0.09740225225687027,
+      "eval_runtime": 6.1438,
+      "eval_samples_per_second": 392.916,
+      "eval_steps_per_second": 24.578,
+      "step": 8618
+    },
+    {
+      "epoch": 35.33,
+      "learning_rate": 0.00011951149560785166,
+      "loss": 0.0892,
+      "step": 8700
+    },
+    {
+      "epoch": 35.74,
+      "learning_rate": 0.0001135131446599535,
+      "loss": 0.0883,
+      "step": 8800
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.3924469896300882,
+      "eval_loss": 0.09739205241203308,
+      "eval_runtime": 6.1304,
+      "eval_samples_per_second": 393.776,
+      "eval_steps_per_second": 24.631,
+      "step": 8865
+    },
+    {
+      "epoch": 36.14,
+      "learning_rate": 0.00010762471104530472,
+      "loss": 0.0877,
+      "step": 8900
+    },
+    {
+      "epoch": 36.55,
+      "learning_rate": 0.00010185093691228534,
+      "loss": 0.0866,
+      "step": 9000
+    },
+    {
+      "epoch": 36.95,
+      "learning_rate": 9.619647207024071e-05,
+      "loss": 0.0878,
+      "step": 9100
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.3924242286296967,
+      "eval_loss": 0.0978410392999649,
+      "eval_runtime": 6.1135,
+      "eval_samples_per_second": 394.865,
+      "eval_steps_per_second": 24.699,
+      "step": 9111
+    },
+    {
+      "epoch": 37.36,
+      "learning_rate": 9.0665870244838e-05,
+      "loss": 0.0859,
+      "step": 9200
+    },
+    {
+      "epoch": 37.77,
+      "learning_rate": 8.526358541080173e-05,
+      "loss": 0.0865,
+      "step": 9300
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.3925216457113723,
+      "eval_loss": 0.09711020439863205,
+      "eval_runtime": 6.1232,
+      "eval_samples_per_second": 394.237,
+      "eval_steps_per_second": 24.66,
+      "step": 9357
+    },
+    {
+      "epoch": 38.17,
+      "learning_rate": 7.999396820498208e-05,
+      "loss": 0.0857,
+      "step": 9400
+    },
+    {
+      "epoch": 38.58,
+      "learning_rate": 7.486126242264468e-05,
+      "loss": 0.085,
+      "step": 9500
+    },
+    {
+      "epoch": 38.98,
+      "learning_rate": 6.986960159980326e-05,
+      "loss": 0.0855,
+      "step": 9600
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.3925689885921866,
+      "eval_loss": 0.09748318791389465,
+      "eval_runtime": 6.1096,
+      "eval_samples_per_second": 395.116,
+      "eval_steps_per_second": 24.715,
+      "step": 9603
+    },
+    {
+      "epoch": 39.39,
+      "learning_rate": 6.502300568434777e-05,
+      "loss": 0.0838,
+      "step": 9700
+    },
+    {
+      "epoch": 39.8,
+      "learning_rate": 6.0325377798648745e-05,
+      "loss": 0.0847,
+      "step": 9800
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.3925434962717481,
+      "eval_loss": 0.0970187559723854,
+      "eval_runtime": 6.2108,
+      "eval_samples_per_second": 388.675,
+      "eval_steps_per_second": 24.312,
+      "step": 9850
+    },
+    {
+      "epoch": 40.2,
+      "learning_rate": 5.578050109624511e-05,
+      "loss": 0.0827,
+      "step": 9900
+    },
+    {
+      "epoch": 40.61,
+      "learning_rate": 5.139203571514672e-05,
+      "loss": 0.0835,
+      "step": 10000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.3925671677121553,
+      "eval_loss": 0.09726004302501678,
+      "eval_runtime": 6.0996,
+      "eval_samples_per_second": 395.763,
+      "eval_steps_per_second": 24.756,
+      "step": 10096
+    },
+    {
+      "epoch": 41.02,
+      "learning_rate": 4.716351583020542e-05,
+      "loss": 0.0831,
+      "step": 10100
+    },
+    {
+      "epoch": 41.42,
+      "learning_rate": 4.3098346806928315e-05,
+      "loss": 0.0821,
+      "step": 10200
+    },
+    {
+      "epoch": 41.83,
+      "learning_rate": 3.919980245902524e-05,
+      "loss": 0.0825,
+      "step": 10300
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.392557152871983,
+      "eval_loss": 0.09756684303283691,
+      "eval_runtime": 6.1355,
+      "eval_samples_per_second": 393.449,
+      "eval_steps_per_second": 24.611,
+      "step": 10342
+    },
+    {
+      "epoch": 42.23,
+      "learning_rate": 3.5471022411899925e-05,
+      "loss": 0.0825,
+      "step": 10400
+    },
+    {
+      "epoch": 42.64,
+      "learning_rate": 3.1915009574206264e-05,
+      "loss": 0.0814,
+      "step": 10500
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.3925817347524058,
+      "eval_loss": 0.09748771786689758,
+      "eval_runtime": 6.1103,
+      "eval_samples_per_second": 395.068,
+      "eval_steps_per_second": 24.712,
+      "step": 10588
+    },
+    {
+      "epoch": 43.0,
+      "step": 10588,
+      "total_flos": 3084220612961280.0,
+      "train_loss": 0.2331255912600619,
+      "train_runtime": 2746.0841,
+      "train_samples_per_second": 143.441,
+      "train_steps_per_second": 4.479
+    }
+  ],
+  "max_steps": 12300,
+  "num_train_epochs": 50,
+  "total_flos": 3084220612961280.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0db7b0d2599b04668617c424a3337e9f602ee02316377c982902ccf0e0c3346
+size 3643