Update text encoder model

Files changed (5) hide show

output_linear.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4da2aadf0a1303ba85d0834450c14c8a396cd43fdb11fb182dcdfd47989a2986
 size 4721639

 version https://git-lfs.github.com/spec/v1
+oid sha256:d49a6e24d051ee5dc3490ed4927513abd4c46e32bc479188b00648e1ef311a4d
 size 4721639

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f78cd6a86b5a818d2971418d3f073417e38c2296aaea36110dcf4e474f8faa9
 size 442547953

 version https://git-lfs.github.com/spec/v1
+oid sha256:762c0f6542b607e5f606ce41f21ca995cc456a0ab1c9bbf507f75d022add985a
 size 442547953

training_args_1.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "adam_epsilon": 1e-08,
     "data_dir": "/content/data",
     "early_stop_callback": false,
-    "eval_batch_size": 8,
     "fp_16": false,
     "gradient_accumulation_steps": 4,
     "learning_rate": 0.001,
@@ -10,7 +10,7 @@
     "max_input_length": 64,
     "model_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
     "n_gpu": 1,
-    "num_train_epochs": 2,
     "seed": 42,
     "shuffle_buffer_size": 65536,
     "tokenizer_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",

     "adam_epsilon": 1e-08,
     "data_dir": "/content/data",
     "early_stop_callback": false,
+    "eval_batch_size": 32,
     "fp_16": false,
     "gradient_accumulation_steps": 4,
     "learning_rate": 0.001,
     "max_input_length": 64,
     "model_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
     "n_gpu": 1,
+    "num_train_epochs": 1,
     "seed": 42,
     "shuffle_buffer_size": 65536,
     "tokenizer_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",

training_args_2.json CHANGED Viewed

@@ -10,8 +10,8 @@
     "max_input_length": 64,
     "model_name_or_path": "/content/pretrain_model",
     "n_gpu": 1,
-    "num_train_epochs": 2,
-    "seed": 42,
     "shuffle_buffer_size": 65536,
     "tokenizer_name_or_path": "/content/pretrain_model",
     "train_batch_size": 256,

     "max_input_length": 64,
     "model_name_or_path": "/content/pretrain_model",
     "n_gpu": 1,
+    "num_train_epochs": 1,
+    "seed": 12345,
     "shuffle_buffer_size": 65536,
     "tokenizer_name_or_path": "/content/pretrain_model",
     "train_batch_size": 256,

training_args_3.json DELETED Viewed

@@ -1,20 +0,0 @@
-{
-    "adam_epsilon": 1e-08,
-    "data_dir": "/content/data",
-    "early_stop_callback": false,
-    "eval_batch_size": 32,
-    "fp_16": false,
-    "gradient_accumulation_steps": 4,
-    "learning_rate": 0.0002,
-    "max_grad_norm": 1.0,
-    "max_input_length": 64,
-    "model_name_or_path": "/content/pretrain_model",
-    "n_gpu": 1,
-    "num_train_epochs": 2,
-    "seed": 12345,
-    "shuffle_buffer_size": 65536,
-    "tokenizer_name_or_path": "/content/pretrain_model",
-    "train_batch_size": 256,
-    "warmup_ratio": 0.05,
-    "weight_decay": 0.0
-}