best performance

Browse files

Files changed (9) hide show

config.json +33 -0
eval_results.txt +1 -0
generation_config.json +7 -0
model_args.json +104 -0
special_tokens_map.json +44 -0
tokenizer_config.json +105 -0
training_args.bin +3 -0
training_progress_scores.csv +35 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "imxly/t5-copy",
+  "architectures": [
+    "CopyT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "use_cache": true,
+  "vocab_size": 50000
+}

eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 0.2587745115160942

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.47.0"
+}

model_args.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+    "adafactor_beta1": null,
+    "adafactor_clip_threshold": 1.0,
+    "adafactor_decay_rate": -0.8,
+    "adafactor_eps": [
+        1e-30,
+        0.001
+    ],
+    "adafactor_relative_step": false,
+    "adafactor_scale_parameter": false,
+    "adafactor_warmup_init": false,
+    "adam_epsilon": 1e-08,
+    "best_model_dir": "/root/data/outputs/copyt5_zh_nlpcc_pku_csc50k_lev_/best_model",
+    "cache_dir": "cache_dir/",
+    "config": {},
+    "cosine_schedule_num_cycles": 0.5,
+    "custom_layer_parameters": [],
+    "custom_parameter_groups": [],
+    "dataloader_num_workers": 0,
+    "do_lower_case": false,
+    "dynamic_quantize": false,
+    "early_stopping_consider_epochs": false,
+    "early_stopping_delta": 0,
+    "early_stopping_metric": "eval_loss",
+    "early_stopping_metric_minimize": true,
+    "early_stopping_patience": 6,
+    "encoding": "utf-8",
+    "eval_batch_size": 8,
+    "evaluate_during_training": true,
+    "evaluate_during_training_silent": true,
+    "evaluate_during_training_steps": 800,
+    "evaluate_during_training_verbose": true,
+    "evaluate_each_epoch": true,
+    "fp16": false,
+    "gradient_accumulation_steps": 1,
+    "learning_rate": 0.0001,
+    "local_rank": -1,
+    "logging_steps": 200,
+    "manual_seed": null,
+    "max_grad_norm": 1.0,
+    "max_seq_length": 200,
+    "model_name": "imxly/t5-copy",
+    "model_type": "copyt5",
+    "multiprocessing_chunksize": -1,
+    "n_gpu": 1,
+    "no_cache": false,
+    "no_save": false,
+    "not_saved_args": [],
+    "num_train_epochs": 3,
+    "optimizer": "AdamW",
+    "output_dir": "/root/data/outputs/copyt5_zh_nlpcc_pku_csc50k_lev_/",
+    "overwrite_output_dir": true,
+    "polynomial_decay_schedule_lr_end": 1e-07,
+    "polynomial_decay_schedule_power": 1.0,
+    "process_count": 46,
+    "quantized_model": false,
+    "reprocess_input_data": true,
+    "save_best_model": true,
+    "save_eval_checkpoints": false,
+    "save_model_every_epoch": false,
+    "save_optimizer_and_scheduler": true,
+    "save_steps": 15000,
+    "scheduler": "linear_schedule_with_warmup",
+    "silent": false,
+    "skip_special_tokens": true,
+    "tensorboard_dir": null,
+    "thread_count": null,
+    "tokenizer_name": null,
+    "tokenizer_type": null,
+    "train_batch_size": 32,
+    "train_custom_parameters_only": false,
+    "use_cached_eval_features": false,
+    "use_early_stopping": true,
+    "use_hf_datasets": false,
+    "use_multiprocessing": false,
+    "use_multiprocessing_for_evaluation": false,
+    "wandb_kwargs": {},
+    "wandb_project": null,
+    "warmup_ratio": 0.06,
+    "warmup_steps": 8687,
+    "weight_decay": 0.0,
+    "model_class": "CopyT5Model",
+    "dataset_class": null,
+    "do_sample": false,
+    "early_stopping": true,
+    "evaluate_generated_text": true,
+    "length_penalty": 2.0,
+    "max_length": 200,
+    "max_steps": -1,
+    "num_beams": 3,
+    "num_return_sequences": 1,
+    "preprocess_inputs": true,
+    "repetition_penalty": 1.0,
+    "special_tokens_list": [
+        "[unused1]",
+        "[unused2]",
+        "[unused3]",
+        "[unused4]",
+        "[unused5]"
+    ],
+    "top_k": null,
+    "top_p": null,
+    "use_multiprocessed_decoding": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "[unused1]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "[unused2]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "[unused3]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "[unused4]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "[unused5]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[unused1]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[unused2]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[unused3]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[unused4]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[unused5]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "[unused1]",
+    "[unused2]",
+    "[unused3]",
+    "[unused4]",
+    "[unused5]"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "ZHTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713cadeb63ec673d4e3d887ef0ce2e394ad77a767e3de001eec1e6733d06ddd
+size 3704

training_progress_scores.csv ADDED Viewed

	@@ -0,0 +1,35 @@

+global_step,eval_loss,train_loss,matches
+800,0.41702376306056976,1.4951772689819336,0.9494125431237969
+1600,0.3887445777654648,1.4314727783203125,0.954538024253534
+2400,0.3581150472164154,1.0880261659622192,0.9597188445917524
+3200,0.35775092244148254,1.542741298675537,0.9612566103086226
+4000,0.3568766713142395,1.0402278900146484,0.9564395677021065
+4800,0.3441026359796524,1.1405222415924072,0.959398327082415
+5600,0.33802540600299835,1.1654727458953857,0.9518268985109863
+6400,0.3336428105831146,1.2279239892959595,0.9630423245943369
+7200,0.335241436958313,1.2788712978363037,0.9579324344844469
+8000,0.340187668800354,1.3176225423812866,0.9594708960229085
+8800,0.33131301403045654,1.1144055128097534,0.9503610059130183
+9600,0.3288237750530243,1.0765184164047241,0.9579595207906675
+10400,0.3388015478849411,1.1630008220672607,0.9593543710384589
+11200,0.30543583631515503,1.1313109397888184,0.963354371038459
+12000,0.32609236240386963,0.9187220931053162,0.9522115138956018
+12800,0.30562080442905426,1.1777799129486084,0.9648469083518917
+13600,0.3183724582195282,0.7291817665100098,0.9611840413681293
+14400,0.32210569083690643,0.9249140620231628,0.9665411842252721
+15200,0.25943733751773834,0.6917589902877808,0.9607370182420016
+16000,0.2648443505167961,1.1873326301574707,0.9643084468134301
+16800,0.26724664121866226,0.9436103105545044,0.9634917336758215
+17600,0.2495434284210205,0.6649165749549866,0.9521016237857116
+18400,0.25149868428707123,0.9023253917694092,0.9628159094999974
+19200,0.23414570093154907,0.8953883647918701,0.9628159094999974
+20000,0.24547121673822403,1.2020918130874634,0.9573214040054918
+20800,0.25678517669439316,1.029130458831787,0.9663853698903532
+21600,0.23246226459741592,1.1233551502227783,0.970387338071426
+22400,0.24005521833896637,1.062412977218628,0.9629743728853516
+23200,0.24047152698040009,0.8992595672607422,0.9683084468134302
+24000,0.23483598977327347,0.9550911784172058,0.9683084468134302
+24800,0.24171914905309677,0.818202018737793,0.9663492631399608
+25600,0.2676503509283066,0.862794816493988,0.9746342613497709
+26400,0.25410324335098267,0.8352174162864685,0.9623853698903533
+27200,0.2587745115160942,0.886418879032135,0.96292547014098

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff