initial commit

Files changed (10) hide show

config.json +29 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer_config.json +1 -0
trainer_state.json +271 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "kravchenko/uk-mt5-small",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.4",
+  "use_cache": false,
+  "vocab_size": 30000
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c6fad65d3cfafb5f078a1e3d45221c5c3d904e549626c5a199c295ab579145b
+size 1117153

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5dc09e29b2c5e031ff87b83030c81dd1fe79394ec46c764666ff197b86cc58
+size 299192133

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e28b961b2c26e01c57f0cdeb03f09683ecda54d0daa350c2245d8ca71db0756
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c6c3030d7091cd1802a3a0c90d0beb159ff2cf5393ff50874a9b18fe710f14d
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa8ea53d190098f2632bd1c44b62731a90a9257a96081183c1a361a24f7ea8ff
+size 804017

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 0, "additional_special_tokens": null, "sp_model_kwargs": {}, "special_tokens_map_file": "/root/.cache/huggingface/transformers/7d115a6774b803276ce282b932e5802b0b6329001c4bc36e2b9bc26ec9276c0c.294ebaa4cd17bb284635004c92d2c4d522ec488c828dcce0c2471b6f28e3fe82", "name_or_path": "kravchenko/uk-mt5-small", "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,271 @@

+{
+  "best_metric": 0.3236161470413208,
+  "best_model_checkpoint": "uk-mt5-small-gec/checkpoint-2550",
+  "epoch": 3.0141843971631204,
+  "global_step": 2550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0009822695035460994,
+      "loss": 1.7105,
+      "step": 150
+    },
+    {
+      "epoch": 0.18,
+      "eval_google_bleu": 0.4163395132458002,
+      "eval_loss": 0.5110855102539062,
+      "eval_runtime": 63.8854,
+      "eval_samples_per_second": 47.037,
+      "eval_steps_per_second": 1.471,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0009645390070921985,
+      "loss": 0.5262,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "eval_google_bleu": 0.4177246109040804,
+      "eval_loss": 0.4555143713951111,
+      "eval_runtime": 64.7255,
+      "eval_samples_per_second": 46.427,
+      "eval_steps_per_second": 1.452,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0009468085106382979,
+      "loss": 0.4747,
+      "step": 450
+    },
+    {
+      "epoch": 0.53,
+      "eval_google_bleu": 0.4190545982950951,
+      "eval_loss": 0.39340439438819885,
+      "eval_runtime": 65.0885,
+      "eval_samples_per_second": 46.168,
+      "eval_steps_per_second": 1.444,
+      "step": 450
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0009290780141843972,
+      "loss": 0.4397,
+      "step": 600
+    },
+    {
+      "epoch": 0.71,
+      "eval_google_bleu": 0.4194098007404113,
+      "eval_loss": 0.38720330595970154,
+      "eval_runtime": 64.9943,
+      "eval_samples_per_second": 46.235,
+      "eval_steps_per_second": 1.446,
+      "step": 600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0009113475177304966,
+      "loss": 0.4011,
+      "step": 750
+    },
+    {
+      "epoch": 0.89,
+      "eval_google_bleu": 0.4206793462964932,
+      "eval_loss": 0.3757050335407257,
+      "eval_runtime": 64.9697,
+      "eval_samples_per_second": 46.252,
+      "eval_steps_per_second": 1.447,
+      "step": 750
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0008936170212765957,
+      "loss": 0.3596,
+      "step": 900
+    },
+    {
+      "epoch": 1.06,
+      "eval_google_bleu": 0.41963648653723384,
+      "eval_loss": 0.3498598635196686,
+      "eval_runtime": 65.0647,
+      "eval_samples_per_second": 46.185,
+      "eval_steps_per_second": 1.445,
+      "step": 900
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.000875886524822695,
+      "loss": 0.3304,
+      "step": 1050
+    },
+    {
+      "epoch": 1.24,
+      "eval_google_bleu": 0.41878056569628735,
+      "eval_loss": 0.35025209188461304,
+      "eval_runtime": 65.045,
+      "eval_samples_per_second": 46.199,
+      "eval_steps_per_second": 1.445,
+      "step": 1050
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0008581560283687944,
+      "loss": 0.3459,
+      "step": 1200
+    },
+    {
+      "epoch": 1.42,
+      "eval_google_bleu": 0.4209402244713899,
+      "eval_loss": 0.3510892987251282,
+      "eval_runtime": 65.018,
+      "eval_samples_per_second": 46.218,
+      "eval_steps_per_second": 1.446,
+      "step": 1200
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0008404255319148936,
+      "loss": 0.3481,
+      "step": 1350
+    },
+    {
+      "epoch": 1.6,
+      "eval_google_bleu": 0.421413227953932,
+      "eval_loss": 0.3524581491947174,
+      "eval_runtime": 64.891,
+      "eval_samples_per_second": 46.308,
+      "eval_steps_per_second": 1.449,
+      "step": 1350
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0008226950354609929,
+      "loss": 0.3474,
+      "step": 1500
+    },
+    {
+      "epoch": 1.77,
+      "eval_google_bleu": 0.4201196404522534,
+      "eval_loss": 0.34515607357025146,
+      "eval_runtime": 65.0925,
+      "eval_samples_per_second": 46.165,
+      "eval_steps_per_second": 1.444,
+      "step": 1500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0008049645390070922,
+      "loss": 0.3337,
+      "step": 1650
+    },
+    {
+      "epoch": 1.95,
+      "eval_google_bleu": 0.4206501794224663,
+      "eval_loss": 0.349977970123291,
+      "eval_runtime": 64.8413,
+      "eval_samples_per_second": 46.344,
+      "eval_steps_per_second": 1.45,
+      "step": 1650
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0007872340425531915,
+      "loss": 0.2976,
+      "step": 1800
+    },
+    {
+      "epoch": 2.13,
+      "eval_google_bleu": 0.4203146331993136,
+      "eval_loss": 0.34735825657844543,
+      "eval_runtime": 65.2646,
+      "eval_samples_per_second": 46.043,
+      "eval_steps_per_second": 1.44,
+      "step": 1800
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0007695035460992907,
+      "loss": 0.2791,
+      "step": 1950
+    },
+    {
+      "epoch": 2.3,
+      "eval_google_bleu": 0.41895903795565576,
+      "eval_loss": 0.35174980759620667,
+      "eval_runtime": 65.0609,
+      "eval_samples_per_second": 46.187,
+      "eval_steps_per_second": 1.445,
+      "step": 1950
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0007517730496453901,
+      "loss": 0.2882,
+      "step": 2100
+    },
+    {
+      "epoch": 2.48,
+      "eval_google_bleu": 0.41924575092997335,
+      "eval_loss": 0.3675171136856079,
+      "eval_runtime": 65.2859,
+      "eval_samples_per_second": 46.028,
+      "eval_steps_per_second": 1.44,
+      "step": 2100
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0007340425531914894,
+      "loss": 0.2835,
+      "step": 2250
+    },
+    {
+      "epoch": 2.66,
+      "eval_google_bleu": 0.4194459403609403,
+      "eval_loss": 0.33840152621269226,
+      "eval_runtime": 65.1731,
+      "eval_samples_per_second": 46.108,
+      "eval_steps_per_second": 1.442,
+      "step": 2250
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0007163120567375887,
+      "loss": 0.2791,
+      "step": 2400
+    },
+    {
+      "epoch": 2.84,
+      "eval_google_bleu": 0.4186248912097476,
+      "eval_loss": 0.3389674425125122,
+      "eval_runtime": 65.3042,
+      "eval_samples_per_second": 46.015,
+      "eval_steps_per_second": 1.439,
+      "step": 2400
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 0.0006985815602836879,
+      "loss": 0.286,
+      "step": 2550
+    },
+    {
+      "epoch": 3.01,
+      "eval_google_bleu": 0.4192825533140128,
+      "eval_loss": 0.3236161470413208,
+      "eval_runtime": 65.0214,
+      "eval_samples_per_second": 46.216,
+      "eval_steps_per_second": 1.446,
+      "step": 2550
+    }
+  ],
+  "max_steps": 8460,
+  "num_train_epochs": 10,
+  "total_flos": 2801591305076736.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0d450feadac456cd19ce450df1036af15bdd3370dd2356a65ffe56aa035065c
+size 3247