Add parameters

Files changed (9) hide show

config.json +47 -0
generation_config.json +7 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer.model +3 -0
tokenizer_config.json +19 -0
train.log +400 -0
trainer_state.json +630 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "_name_or_path": "THUDM/chatglm3-6b",
+  "add_bias_linear": false,
+  "add_qkv_bias": true,
+  "apply_query_key_layer_scaling": true,
+  "apply_residual_connection_post_layernorm": false,
+  "architectures": [
+    "ChatGLMForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "attention_softmax_in_fp32": true,
+  "auto_map": {
+    "AutoConfig": "THUDM/chatglm3-6b--configuration_chatglm.ChatGLMConfig",
+    "AutoModel": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForCausalLM": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForSeq2SeqLM": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForSequenceClassification": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForSequenceClassification"
+  },
+  "bias_dropout_fusion": true,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "ffn_hidden_size": 13696,
+  "fp32_residual_connection": false,
+  "hidden_dropout": 0.0,
+  "hidden_size": 4096,
+  "kv_channels": 128,
+  "layernorm_epsilon": 1e-05,
+  "model_type": "chatglm",
+  "multi_query_attention": true,
+  "multi_query_group_num": 2,
+  "num_attention_heads": 32,
+  "num_layers": 28,
+  "original_rope": true,
+  "pad_token_id": 0,
+  "padded_vocab_size": 65024,
+  "post_layer_norm": true,
+  "pre_seq_len": 128,
+  "prefix_projection": false,
+  "quantization_bit": 0,
+  "rmsnorm": true,
+  "seq_length": 8192,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.1",
+  "use_cache": false,
+  "vocab_size": 65024
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.37.1",
+  "use_cache": false
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b97e5e600417c14384def2c941f4642664fc5fe152bef37c8770f97bed2295ae
+size 7341306

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7dc4c393423b76e4373e5157ddc34803a0189ba96b21ddbb40269d31468a6f2
+size 1018370

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "added_tokens_decoder": {},
+  "auto_map": {
+    "AutoTokenizer": [
+      "THUDM/chatglm3-6b--tokenization_chatglm.ChatGLMTokenizer",
+      null
+    ]
+  },
+  "chat_template": "{% for message in messages %}{% if loop.first %}[gMASK]sop<|{{ message['role'] }}|> \n {{ message['content'] }}{% else %}<|{{ message['role'] }}|> \n {{ message['content'] }}{% endif %}{% endfor %}{% if add_generation_prompt %}<|assistant|>{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "padding_side": "left",
+  "remove_space": false,
+  "tokenizer_class": "ChatGLMTokenizer",
+  "unk_token": "<unk>"
+}

train.log ADDED Viewed

@@ -0,0 +1,400 @@
  0%|          | 0/100 [00:00<?, ?it/s]/home/vipuser/miniconda3/envs/GLM/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
  1%|          | 1/100 [00:13<22:36, 13.70s/it]
  1%|          | 1/100 [00:13<22:36, 13.70s/it]
  2%|▏         | 2/100 [00:25<20:33, 12.59s/it]
  2%|▏         | 2/100 [00:25<20:33, 12.59s/it]
  3%|▎         | 3/100 [00:37<19:50, 12.27s/it]
  3%|▎         | 3/100 [00:37<19:50, 12.27s/it]
  4%|▍         | 4/100 [00:49<19:25, 12.14s/it]
  4%|▍         | 4/100 [00:49<19:25, 12.14s/it]
  5%|▌         | 5/100 [01:01<19:09, 12.10s/it]
  5%|▌         | 5/100 [01:01<19:09, 12.10s/it]
  6%|▌         | 6/100 [01:13<18:55, 12.08s/it]
  6%|▌         | 6/100 [01:13<18:55, 12.08s/it]
  7%|▋         | 7/100 [01:25<18:45, 12.11s/it]
  7%|▋         | 7/100 [01:25<18:45, 12.11s/it]
  8%|▊         | 8/100 [01:37<18:35, 12.13s/it]
  8%|▊         | 8/100 [01:37<18:35, 12.13s/it]
  9%|▉         | 9/100 [01:49<18:25, 12.15s/it]
  9%|▉         | 9/100 [01:49<18:25, 12.15s/it]
 10%|█         | 10/100 [02:02<18:13, 12.15s/it]
 10%|█         | 10/100 [02:02<18:13, 12.15s/it]
 11%|█         | 11/100 [02:14<18:01, 12.16s/it]
 11%|█         | 11/100 [02:14<18:01, 12.16s/it]
 12%|█▏        | 12/100 [02:26<17:51, 12.18s/it]
 12%|█▏        | 12/100 [02:26<17:51, 12.18s/it]
 13%|█▎        | 13/100 [02:38<17:39, 12.18s/it]
 13%|█▎        | 13/100 [02:38<17:39, 12.18s/it]
 14%|█▍        | 14/100 [02:50<17:28, 12.19s/it]
 14%|█▍        | 14/100 [02:50<17:28, 12.19s/it]
 15%|█▌        | 15/100 [03:03<17:17, 12.20s/it]
 15%|█▌        | 15/100 [03:03<17:17, 12.20s/it]
 16%|█▌        | 16/100 [03:15<17:04, 12.20s/it]
 16%|█▌        | 16/100 [03:15<17:04, 12.20s/it]
 17%|█▋        | 17/100 [03:27<16:52, 12.20s/it]
 17%|█▋        | 17/100 [03:27<16:52, 12.20s/it]
 18%|█▊        | 18/100 [03:39<16:39, 12.19s/it]
 18%|█▊        | 18/100 [03:39<16:39, 12.19s/it]
 19%|█▉        | 19/100 [03:51<16:27, 12.19s/it]
 19%|█▉        | 19/100 [03:51<16:27, 12.19s/it]
 20%|██        | 20/100 [04:04<16:14, 12.18s/it]
 20%|██        | 20/100 [04:04<16:14, 12.18s/it]
 21%|██        | 21/100 [04:16<16:01, 12.17s/it]
 21%|██        | 21/100 [04:16<16:01, 12.17s/it]
 22%|██▏       | 22/100 [04:28<15:50, 12.18s/it]
 22%|██▏       | 22/100 [04:28<15:50, 12.18s/it]
 23%|██▎       | 23/100 [04:40<15:37, 12.18s/it]
 23%|██▎       | 23/100 [04:40<15:37, 12.18s/it]
 24%|██▍       | 24/100 [04:52<15:25, 12.17s/it]
 24%|██▍       | 24/100 [04:52<15:25, 12.17s/it]
 25%|██▌       | 25/100 [05:04<15:13, 12.18s/it]
 25%|██▌       | 25/100 [05:04<15:13, 12.18s/it]
 26%|██▌       | 26/100 [05:17<15:00, 12.17s/it]
 26%|██▌       | 26/100 [05:17<15:00, 12.17s/it]
 27%|██▋       | 27/100 [05:29<14:49, 12.18s/it]
 27%|██▋       | 27/100 [05:29<14:49, 12.18s/it]
 28%|██▊       | 28/100 [05:41<14:36, 12.17s/it]
 28%|██▊       | 28/100 [05:41<14:36, 12.17s/it]
 29%|██▉       | 29/100 [05:53<14:25, 12.19s/it]
 29%|██▉       | 29/100 [05:53<14:25, 12.19s/it]
 30%|███       | 30/100 [06:05<14:13, 12.19s/it]
 30%|███       | 30/100 [06:05<14:13, 12.19s/it]
 31%|███       | 31/100 [06:17<14:00, 12.18s/it]
 31%|███       | 31/100 [06:17<14:00, 12.18s/it]
 32%|███▏      | 32/100 [06:30<13:48, 12.18s/it]
 32%|███▏      | 32/100 [06:30<13:48, 12.18s/it]
 33%|███▎      | 33/100 [06:42<13:36, 12.18s/it]
 33%|███▎      | 33/100 [06:42<13:36, 12.18s/it]
 34%|███▍      | 34/100 [06:54<13:24, 12.18s/it]
 34%|███▍      | 34/100 [06:54<13:24, 12.18s/it]
 35%|███▌      | 35/100 [07:06<13:10, 12.16s/it]
 35%|███▌      | 35/100 [07:06<13:10, 12.16s/it]
 36%|███▌      | 36/100 [07:18<12:57, 12.16s/it]
 36%|███▌      | 36/100 [07:18<12:57, 12.16s/it]
 37%|███▋      | 37/100 [07:30<12:46, 12.17s/it]
 37%|███▋      | 37/100 [07:30<12:46, 12.17s/it]
 38%|███▊      | 38/100 [07:43<12:34, 12.17s/it]
 38%|███▊      | 38/100 [07:43<12:34, 12.17s/it]
 39%|███▉      | 39/100 [07:55<12:22, 12.17s/it]
 39%|███▉      | 39/100 [07:55<12:22, 12.17s/it]
 40%|████      | 40/100 [08:07<12:10, 12.17s/it]
 40%|████      | 40/100 [08:07<12:10, 12.17s/it]
 41%|████      | 41/100 [08:19<11:58, 12.18s/it]
 41%|████      | 41/100 [08:19<11:58, 12.18s/it]
 42%|████▏     | 42/100 [08:31<11:46, 12.17s/it]
 42%|████▏     | 42/100 [08:31<11:46, 12.17s/it]
 43%|████▎     | 43/100 [08:44<11:34, 12.18s/it]
 43%|████▎     | 43/100 [08:44<11:34, 12.18s/it]
 44%|████▍     | 44/100 [08:56<11:21, 12.17s/it]
 44%|████▍     | 44/100 [08:56<11:21, 12.17s/it]
 45%|████▌     | 45/100 [09:08<11:09, 12.17s/it]
 45%|████▌     | 45/100 [09:08<11:09, 12.17s/it]
 46%|████▌     | 46/100 [09:20<10:57, 12.18s/it]
 46%|████▌     | 46/100 [09:20<10:57, 12.18s/it]
 47%|████▋     | 47/100 [09:32<10:44, 12.17s/it]
 47%|████▋     | 47/100 [09:32<10:44, 12.17s/it]
 48%|████▊     | 48/100 [09:44<10:33, 12.18s/it]
 48%|████▊     | 48/100 [09:44<10:33, 12.18s/it]
 49%|████▉     | 49/100 [09:57<10:21, 12.19s/it]
 49%|████▉     | 49/100 [09:57<10:21, 12.19s/it]
 50%|█████     | 50/100 [10:09<10:09, 12.18s/it]
 50%|█████     | 50/100 [10:09<10:09, 12.18s/it]
 51%|█████     | 51/100 [10:21<09:56, 12.17s/it]
 51%|█████     | 51/100 [10:21<09:56, 12.17s/it]
 52%|█████▏    | 52/100 [10:33<09:44, 12.18s/it]
 52%|█████▏    | 52/100 [10:33<09:44, 12.18s/it]
 53%|█████▎    | 53/100 [10:45<09:32, 12.19s/it]
 53%|█████▎    | 53/100 [10:45<09:32, 12.19s/it]
 54%|█████▍    | 54/100 [10:58<09:20, 12.18s/it]
 54%|█████▍    | 54/100 [10:58<09:20, 12.18s/it]
 55%|█████▌    | 55/100 [11:10<09:08, 12.18s/it]
 55%|█████▌    | 55/100 [11:10<09:08, 12.18s/it]
 56%|█████▌    | 56/100 [11:22<08:56, 12.19s/it]
 56%|█████▌    | 56/100 [11:22<08:56, 12.19s/it]
 57%|█████▋    | 57/100 [11:34<08:43, 12.18s/it]
 57%|█████▋    | 57/100 [11:34<08:43, 12.18s/it]
 58%|█████▊    | 58/100 [11:46<08:31, 12.18s/it]
 58%|█████▊    | 58/100 [11:46<08:31, 12.18s/it]
 59%|█████▉    | 59/100 [11:58<08:19, 12.18s/it]
 59%|█████▉    | 59/100 [11:58<08:19, 12.18s/it]
 60%|██████    | 60/100 [12:11<08:07, 12.18s/it]
 60%|██████    | 60/100 [12:11<08:07, 12.18s/it]
 61%|██████    | 61/100 [12:23<07:55, 12.19s/it]
 61%|██████    | 61/100 [12:23<07:55, 12.19s/it]
 62%|██████▏   | 62/100 [12:35<07:42, 12.18s/it]
 62%|██████▏   | 62/100 [12:35<07:42, 12.18s/it]
 63%|██████▎   | 63/100 [12:47<07:30, 12.18s/it]
 63%|██████▎   | 63/100 [12:47<07:30, 12.18s/it]
 64%|██████▍   | 64/100 [12:59<07:18, 12.18s/it]
 64%|██████▍   | 64/100 [12:59<07:18, 12.18s/it]
 65%|██████▌   | 65/100 [13:12<07:06, 12.18s/it]
 65%|██████▌   | 65/100 [13:12<07:06, 12.18s/it]
 66%|██████▌   | 66/100 [13:24<06:54, 12.18s/it]
 66%|██████▌   | 66/100 [13:24<06:54, 12.18s/it]
 67%|██████▋   | 67/100 [13:36<06:42, 12.19s/it]
 67%|██████▋   | 67/100 [13:36<06:42, 12.19s/it]
 68%|██████▊   | 68/100 [13:48<06:29, 12.17s/it]
 68%|██████▊   | 68/100 [13:48<06:29, 12.17s/it]
 69%|██████▉   | 69/100 [14:00<06:17, 12.16s/it]
 69%|██████▉   | 69/100 [14:00<06:17, 12.16s/it]
 70%|███████   | 70/100 [14:12<06:04, 12.16s/it]
 70%|███████   | 70/100 [14:12<06:04, 12.16s/it]
 71%|███████   | 71/100 [14:25<05:52, 12.16s/it]
 71%|███████   | 71/100 [14:25<05:52, 12.16s/it]
 72%|███████▏  | 72/100 [14:37<05:41, 12.19s/it]
 72%|███████▏  | 72/100 [14:37<05:41, 12.19s/it]
 73%|███████▎  | 73/100 [14:49<05:28, 12.18s/it]
 73%|███████▎  | 73/100 [14:49<05:28, 12.18s/it]
 74%|███████▍  | 74/100 [15:01<05:16, 12.18s/it]
 74%|███████▍  | 74/100 [15:01<05:16, 12.18s/it]
 75%|███████▌  | 75/100 [15:13<05:04, 12.19s/it]
 75%|███████▌  | 75/100 [15:13<05:04, 12.19s/it]
 76%|███████▌  | 76/100 [15:26<04:52, 12.19s/it]
 76%|███████▌  | 76/100 [15:26<04:52, 12.19s/it]
 77%|███████▋  | 77/100 [15:38<04:40, 12.19s/it]
 77%|███████▋  | 77/100 [15:38<04:40, 12.19s/it]
 78%|███████▊  | 78/100 [15:50<04:28, 12.19s/it]
 78%|███████▊  | 78/100 [15:50<04:28, 12.19s/it]
 79%|███████▉  | 79/100 [16:02<04:16, 12.20s/it]
 79%|███████▉  | 79/100 [16:02<04:16, 12.20s/it]
 80%|████████  | 80/100 [16:14<04:03, 12.17s/it]
 80%|████████  | 80/100 [16:14<04:03, 12.17s/it]
 81%|████████  | 81/100 [16:26<03:51, 12.18s/it]
 81%|████████  | 81/100 [16:26<03:51, 12.18s/it]
 82%|████████▏ | 82/100 [16:39<03:39, 12.18s/it]
 82%|████████▏ | 82/100 [16:39<03:39, 12.18s/it]
 83%|████████▎ | 83/100 [16:51<03:26, 12.16s/it]
 83%|████████▎ | 83/100 [16:51<03:26, 12.16s/it]
 84%|████████▍ | 84/100 [17:03<03:14, 12.18s/it]
 84%|████████▍ | 84/100 [17:03<03:14, 12.18s/it]
 85%|████████▌ | 85/100 [17:15<03:02, 12.18s/it]
 85%|████████▌ | 85/100 [17:15<03:02, 12.18s/it]
 86%|████████▌ | 86/100 [17:27<02:50, 12.18s/it]
 86%|████████▌ | 86/100 [17:27<02:50, 12.18s/it]
 87%|████████▋ | 87/100 [17:39<02:38, 12.18s/it]
 87%|████████▋ | 87/100 [17:39<02:38, 12.18s/it]
 88%|████████▊ | 88/100 [17:52<02:26, 12.18s/it]
 88%|████████▊ | 88/100 [17:52<02:26, 12.18s/it]
 89%|████████▉ | 89/100 [18:04<02:13, 12.18s/it]
 89%|████████▉ | 89/100 [18:04<02:13, 12.18s/it]
 90%|█████████ | 90/100 [18:16<02:01, 12.18s/it]
 90%|█████████ | 90/100 [18:16<02:01, 12.18s/it]
 91%|█████████ | 91/100 [18:28<01:49, 12.18s/it]
 91%|█████████ | 91/100 [18:28<01:49, 12.18s/it]
 92%|█████████▏| 92/100 [18:40<01:37, 12.20s/it]
 92%|█████████▏| 92/100 [18:40<01:37, 12.20s/it]
 93%|█████████▎| 93/100 [18:53<01:25, 12.21s/it]
 93%|█████████▎| 93/100 [18:53<01:25, 12.21s/it]
 94%|█████████▍| 94/100 [19:05<01:13, 12.19s/it]
 94%|█████████▍| 94/100 [19:05<01:13, 12.19s/it]
 95%|█████████▌| 95/100 [19:17<01:00, 12.18s/it]
 95%|█████████▌| 95/100 [19:17<01:00, 12.18s/it]
 96%|█████████▌| 96/100 [19:29<00:48, 12.18s/it]
 96%|█████████▌| 96/100 [19:29<00:48, 12.18s/it]
 97%|█████████▋| 97/100 [19:41<00:36, 12.19s/it]
 97%|█████████▋| 97/100 [19:41<00:36, 12.19s/it]
 98%|█████████▊| 98/100 [19:54<00:24, 12.19s/it]
 98%|█████████▊| 98/100 [19:54<00:24, 12.19s/it]
 99%|█████████▉| 99/100 [20:06<00:12, 12.18s/it]
 99%|█████████▉| 99/100 [20:06<00:12, 12.18s/it]

+[2024-01-26 12:54:39,523] torch.distributed.run: [WARNING] master_addr is only used for static rdzv_backend and when rdzv_endpoint is not specified.
+01/26/2024 12:54:44 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1distributed training: True, 16-bits training: False
+01/26/2024 12:54:44 - INFO - __main__ - Training/evaluation parameters Seq2SeqTrainingArguments(
+_n_gpu=1,
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+auto_find_batch_size=False,
+bf16=False,
+bf16_full_eval=False,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=False,
+ddp_timeout=1800,
+debug=[],
+deepspeed=None,
+disable_tqdm=False,
+dispatch_batches=None,
+do_eval=False,
+do_predict=False,
+do_train=False,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_steps=None,
+evaluation_strategy=no,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+generation_config=None,
+generation_max_length=None,
+generation_num_beams=None,
+gradient_accumulation_steps=32,
+gradient_checkpointing=False,
+gradient_checkpointing_kwargs=None,
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=None,
+hub_private_repo=False,
+hub_strategy=every_save,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=0.02,
+length_column_name=length,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=passive,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=output/privacy_detection_pt-20240126-125436-128-2e-2/runs/Jan26_12-54-44_ubuntu1804,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1.0,
+logging_strategy=steps,
+lr_scheduler_kwargs={},
+lr_scheduler_type=linear,
+max_grad_norm=1.0,
+max_steps=100,
+metric_for_best_model=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_train_epochs=3.0,
+optim=adamw_torch,
+optim_args=None,
+output_dir=output/privacy_detection_pt-20240126-125436-128-2e-2,
+overwrite_output_dir=False,
+past_index=-1,
+per_device_eval_batch_size=8,
+per_device_train_batch_size=1,
+predict_with_generate=False,
+prediction_loss_only=False,
+push_to_hub=False,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+remove_unused_columns=True,
+report_to=[],
+resume_from_checkpoint=True,
+run_name=output/privacy_detection_pt-20240126-125436-128-2e-2,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=False,
+save_steps=500,
+save_strategy=steps,
+save_total_limit=None,
+seed=42,
+skip_memory_metrics=True,
+sortish_sampler=False,
+split_batches=False,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_mps_device=False,
+warmup_ratio=0.0,
+warmup_steps=0,
+weight_decay=0.0,
+)
+[INFO|configuration_utils.py:729] 2024-01-26 12:54:45,398 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--THUDM--chatglm3-6b/snapshots/37f2196f481f8989ea443be625d05f97043652ea/config.json
+[INFO|configuration_utils.py:729] 2024-01-26 12:54:45,957 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--THUDM--chatglm3-6b/snapshots/37f2196f481f8989ea443be625d05f97043652ea/config.json
+[INFO|configuration_utils.py:792] 2024-01-26 12:54:45,960 >> Model config ChatGLMConfig {
+  "_name_or_path": "THUDM/chatglm3-6b",
+  "add_bias_linear": false,
+  "add_qkv_bias": true,
+  "apply_query_key_layer_scaling": true,
+  "apply_residual_connection_post_layernorm": false,
+  "architectures": [
+    "ChatGLMModel"
+  ],
+  "attention_dropout": 0.0,
+  "attention_softmax_in_fp32": true,
+  "auto_map": {
+    "AutoConfig": "THUDM/chatglm3-6b--configuration_chatglm.ChatGLMConfig",
+    "AutoModel": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForCausalLM": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForSeq2SeqLM": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForConditionalGeneration",
+    "AutoModelForSequenceClassification": "THUDM/chatglm3-6b--modeling_chatglm.ChatGLMForSequenceClassification"
+  },
+  "bias_dropout_fusion": true,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "ffn_hidden_size": 13696,
+  "fp32_residual_connection": false,
+  "hidden_dropout": 0.0,
+  "hidden_size": 4096,
+  "kv_channels": 128,
+  "layernorm_epsilon": 1e-05,
+  "model_type": "chatglm",
+  "multi_query_attention": true,
+  "multi_query_group_num": 2,
+  "num_attention_heads": 32,
+  "num_layers": 28,
+  "original_rope": true,
+  "pad_token_id": 0,
+  "padded_vocab_size": 65024,
+  "post_layer_norm": true,
+  "pre_seq_len": null,
+  "prefix_projection": false,
+  "quantization_bit": 0,
+  "rmsnorm": true,
+  "seq_length": 8192,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.1",
+  "use_cache": true,
+  "vocab_size": 65024
+}
+[INFO|tokenization_utils_base.py:2027] 2024-01-26 12:54:46,519 >> loading file tokenizer.model from cache at /root/.cache/huggingface/hub/models--THUDM--chatglm3-6b/snapshots/37f2196f481f8989ea443be625d05f97043652ea/tokenizer.model
+[INFO|tokenization_utils_base.py:2027] 2024-01-26 12:54:46,519 >> loading file added_tokens.json from cache at None
+[INFO|tokenization_utils_base.py:2027] 2024-01-26 12:54:46,519 >> loading file special_tokens_map.json from cache at None
+[INFO|tokenization_utils_base.py:2027] 2024-01-26 12:54:46,519 >> loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--THUDM--chatglm3-6b/snapshots/37f2196f481f8989ea443be625d05f97043652ea/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2027] 2024-01-26 12:54:46,519 >> loading file tokenizer.json from cache at None
+[INFO|modeling_utils.py:3478] 2024-01-26 12:54:47,170 >> loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--THUDM--chatglm3-6b/snapshots/37f2196f481f8989ea443be625d05f97043652ea/model.safetensors.index.json
+[INFO|configuration_utils.py:826] 2024-01-26 12:54:47,177 >> Generate config GenerationConfig {
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "use_cache": false
+}
+[INFO|modeling_utils.py:4352] 2024-01-26 12:55:07,172 >> All model checkpoint weights were used when initializing ChatGLMForConditionalGeneration.
+[WARNING|modeling_utils.py:4354] 2024-01-26 12:55:07,173 >> Some weights of ChatGLMForConditionalGeneration were not initialized from the model checkpoint at THUDM/chatglm3-6b and are newly initialized: ['transformer.prefix_encoder.embedding.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+[INFO|modeling_utils.py:3897] 2024-01-26 12:55:07,458 >> Generation config file not found, using a generation config created from the model config.
+Sanity Check >>>>>>>>>>>>>
+           '[gMASK]':  64790 ->   -100
+               'sop':  64792 ->   -100
+                  '':  30910 ->   -100
+                 '请':  55073 ->   -100
+                '找出':  40369 ->   -100
+                '下面':  33182 ->   -100
+                '文本':  36704 ->   -100
+                '中的':  31697 ->   -100
+          'position':   6523 ->   -100
+                 '：':  31211 ->   -100
+                '艺术':  31835 ->   -100
+                 '是':  54532 ->   -100
+               '相同的':  38815 ->   -100
+                 '，':  31123 ->   -100
+                '音乐':  32000 ->   -100
+                '美术':  33020 ->   -100
+                '体育':  32214 ->   -100
+                 '三':  54645 ->   -100
+                 '样':  54741 ->   -100
+                '都是':  31700 ->   -100
+                '艺术':  31835 ->   -100
+                '。，':  37843 ->   -100
+                 '三':  54645 ->   -100
+                 '样':  54741 ->   -100
+                '艺术':  31835 ->   -100
+                '都是':  31700 ->   -100
+                 '靠':  55518 ->   -100
+                '感觉':  32044 ->   -100
+                 '的':  54530 ->   -100
+                 '。':  31155 ->   -100
+                '感觉':  32044 ->   -100
+                '好玩':  42814 ->   -100
+                '起来':  31841 ->   -100
+                '就很':  40030 ->   -100
+                '轻松':  33550 ->   -100
+                 '，':  31123 ->   -100
+                '所以':  31672 ->   -100
+                '叫做':  35528 ->   -100
+                 '玩':  55409 ->   -100
+                '艺术':  31835 ->   -100
+                 '。':  31155 ->   -100
+                 '没':  54721 ->   -100
+                '感觉':  32044 ->   -100
+               '找不到':  37779 ->   -100
+                 '北':  54760 ->   -100
+                 '的':  54530 ->   -100
+                '干脆':  43396 ->   -100
+                 '别':  54835 ->   -100
+                 '玩':  55409 ->   -100
+                 '了':  54537 ->   -100
+                 '！':  31404 ->   -100
+                 '，':  31123 ->   -100
+                '香港':  31776 ->   -100
+                '电影':  31867 ->   -100
+                '国语':  54385 ->   -100
+                '配音':  40392 ->   -100
+                '名家':  40465 ->   -100
+                 '周':  54896 ->   -100
+                 '思':  54872 ->   -100
+                 '平':  54678 ->   -100
+                 '，':  31123 ->   -100
+               '代表作':  43527 ->   -100
+                 '有':  54536 ->   -100
+               'TVB':  42671 ->   -100
+                 '《':  54611 ->   -100
+                '上海':  31770 ->   -100
+                 '滩':  56928 ->   -100
+                 '》':  54612 ->   -100
+                 '周':  54896 ->   -100
+                 '润':  55826 ->   -100
+                 '发':  54559 ->   -100
+                 '等':  54609 ->   -100
+                '香港':  37944 ->  37944
+                '电影':  31867 ->  31867
+                '国语':  54385 ->  54385
+                '配音':  40392 ->  40392
+                '名家':  40465 ->  40465
+                  '':      2 ->      2
+<<<<<<<<<<<<< Sanity Check
+01/26/2024 12:55:08 - WARNING - accelerate.utils.other - Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+[INFO|trainer.py:522] 2024-01-26 12:55:20,019 >> max_steps is given, it will override any value given in num_train_epochs
+[WARNING|modeling_utils.py:2134] 2024-01-26 12:55:20,020 >> You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.
+[INFO|trainer.py:1721] 2024-01-26 12:55:21,544 >> ***** Running training *****
+[INFO|trainer.py:1722] 2024-01-26 12:55:21,544 >>   Num examples = 2,515
+[INFO|trainer.py:1723] 2024-01-26 12:55:21,544 >>   Num Epochs = 2
+[INFO|trainer.py:1724] 2024-01-26 12:55:21,544 >>   Instantaneous batch size per device = 1
+[INFO|trainer.py:1727] 2024-01-26 12:55:21,544 >>   Total train batch size (w. parallel, distributed & accumulation) = 32
+[INFO|trainer.py:1728] 2024-01-26 12:55:21,544 >>   Gradient Accumulation steps = 32
+[INFO|trainer.py:1729] 2024-01-26 12:55:21,544 >>   Total optimization steps = 100
+[INFO|trainer.py:1730] 2024-01-26 12:55:21,545 >>   Number of trainable parameters = 1,835,008
  0%|          | 0/100 [00:00<?, ?it/s]/home/vipuser/miniconda3/envs/GLM/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+  warnings.warn(
  1%|          | 1/100 [00:13<22:36, 13.70s/it]
  1%|          | 1/100 [00:13<22:36, 13.70s/it]
  2%|▏         | 2/100 [00:25<20:33, 12.59s/it]
  2%|▏         | 2/100 [00:25<20:33, 12.59s/it]
  3%|▎         | 3/100 [00:37<19:50, 12.27s/it]
  3%|▎         | 3/100 [00:37<19:50, 12.27s/it]
  4%|▍         | 4/100 [00:49<19:25, 12.14s/it]
  4%|▍         | 4/100 [00:49<19:25, 12.14s/it]
  5%|▌         | 5/100 [01:01<19:09, 12.10s/it]
  5%|▌         | 5/100 [01:01<19:09, 12.10s/it]
  6%|▌         | 6/100 [01:13<18:55, 12.08s/it]
  6%|▌         | 6/100 [01:13<18:55, 12.08s/it]
  7%|▋         | 7/100 [01:25<18:45, 12.11s/it]
  7%|▋         | 7/100 [01:25<18:45, 12.11s/it]
  8%|▊         | 8/100 [01:37<18:35, 12.13s/it]
  8%|▊         | 8/100 [01:37<18:35, 12.13s/it]
  9%|▉         | 9/100 [01:49<18:25, 12.15s/it]
  9%|▉         | 9/100 [01:49<18:25, 12.15s/it]
 10%|█         | 10/100 [02:02<18:13, 12.15s/it]
 10%|█         | 10/100 [02:02<18:13, 12.15s/it]
 11%|█         | 11/100 [02:14<18:01, 12.16s/it]
 11%|█         | 11/100 [02:14<18:01, 12.16s/it]
 12%|█▏        | 12/100 [02:26<17:51, 12.18s/it]
 12%|█▏        | 12/100 [02:26<17:51, 12.18s/it]
 13%|█▎        | 13/100 [02:38<17:39, 12.18s/it]
 13%|█▎        | 13/100 [02:38<17:39, 12.18s/it]
 14%|█▍        | 14/100 [02:50<17:28, 12.19s/it]
 14%|█▍        | 14/100 [02:50<17:28, 12.19s/it]
 15%|█▌        | 15/100 [03:03<17:17, 12.20s/it]
 15%|█▌        | 15/100 [03:03<17:17, 12.20s/it]
 16%|█▌        | 16/100 [03:15<17:04, 12.20s/it]
 16%|█▌        | 16/100 [03:15<17:04, 12.20s/it]
 17%|█▋        | 17/100 [03:27<16:52, 12.20s/it]
 17%|█▋        | 17/100 [03:27<16:52, 12.20s/it]
 18%|█▊        | 18/100 [03:39<16:39, 12.19s/it]
 18%|█▊        | 18/100 [03:39<16:39, 12.19s/it]
 19%|█▉        | 19/100 [03:51<16:27, 12.19s/it]
 19%|█▉        | 19/100 [03:51<16:27, 12.19s/it]
 20%|██        | 20/100 [04:04<16:14, 12.18s/it]
 20%|██        | 20/100 [04:04<16:14, 12.18s/it]
 21%|██        | 21/100 [04:16<16:01, 12.17s/it]
 21%|██        | 21/100 [04:16<16:01, 12.17s/it]
 22%|██▏       | 22/100 [04:28<15:50, 12.18s/it]
 22%|██▏       | 22/100 [04:28<15:50, 12.18s/it]
 23%|██▎       | 23/100 [04:40<15:37, 12.18s/it]
 23%|██▎       | 23/100 [04:40<15:37, 12.18s/it]
 24%|██▍       | 24/100 [04:52<15:25, 12.17s/it]
 24%|██▍       | 24/100 [04:52<15:25, 12.17s/it]
 25%|██▌       | 25/100 [05:04<15:13, 12.18s/it]
 25%|██▌       | 25/100 [05:04<15:13, 12.18s/it]
 26%|██▌       | 26/100 [05:17<15:00, 12.17s/it]
 26%|██▌       | 26/100 [05:17<15:00, 12.17s/it]
 27%|██▋       | 27/100 [05:29<14:49, 12.18s/it]
 27%|██▋       | 27/100 [05:29<14:49, 12.18s/it]
 28%|██▊       | 28/100 [05:41<14:36, 12.17s/it]
 28%|██▊       | 28/100 [05:41<14:36, 12.17s/it]
 29%|██▉       | 29/100 [05:53<14:25, 12.19s/it]
 29%|██▉       | 29/100 [05:53<14:25, 12.19s/it]
 30%|███       | 30/100 [06:05<14:13, 12.19s/it]
 30%|███       | 30/100 [06:05<14:13, 12.19s/it]
 31%|███       | 31/100 [06:17<14:00, 12.18s/it]
 31%|███       | 31/100 [06:17<14:00, 12.18s/it]
 32%|███▏      | 32/100 [06:30<13:48, 12.18s/it]
 32%|███▏      | 32/100 [06:30<13:48, 12.18s/it]
 33%|███▎      | 33/100 [06:42<13:36, 12.18s/it]
 33%|███▎      | 33/100 [06:42<13:36, 12.18s/it]
 34%|███▍      | 34/100 [06:54<13:24, 12.18s/it]
 34%|███▍      | 34/100 [06:54<13:24, 12.18s/it]
 35%|███▌      | 35/100 [07:06<13:10, 12.16s/it]
 35%|███▌      | 35/100 [07:06<13:10, 12.16s/it]
 36%|███▌      | 36/100 [07:18<12:57, 12.16s/it]
 36%|███▌      | 36/100 [07:18<12:57, 12.16s/it]
 37%|███▋      | 37/100 [07:30<12:46, 12.17s/it]
 37%|███▋      | 37/100 [07:30<12:46, 12.17s/it]
 38%|███▊      | 38/100 [07:43<12:34, 12.17s/it]
 38%|███▊      | 38/100 [07:43<12:34, 12.17s/it]
 39%|███▉      | 39/100 [07:55<12:22, 12.17s/it]
 39%|███▉      | 39/100 [07:55<12:22, 12.17s/it]
 40%|████      | 40/100 [08:07<12:10, 12.17s/it]
 40%|████      | 40/100 [08:07<12:10, 12.17s/it]
 41%|████      | 41/100 [08:19<11:58, 12.18s/it]
 41%|████      | 41/100 [08:19<11:58, 12.18s/it]
 42%|████▏     | 42/100 [08:31<11:46, 12.17s/it]
 42%|████▏     | 42/100 [08:31<11:46, 12.17s/it]
 43%|████▎     | 43/100 [08:44<11:34, 12.18s/it]
 43%|████▎     | 43/100 [08:44<11:34, 12.18s/it]
 44%|████▍     | 44/100 [08:56<11:21, 12.17s/it]
 44%|████▍     | 44/100 [08:56<11:21, 12.17s/it]
 45%|████▌     | 45/100 [09:08<11:09, 12.17s/it]
 45%|████▌     | 45/100 [09:08<11:09, 12.17s/it]
 46%|████▌     | 46/100 [09:20<10:57, 12.18s/it]
 46%|████▌     | 46/100 [09:20<10:57, 12.18s/it]
 47%|████▋     | 47/100 [09:32<10:44, 12.17s/it]
 47%|████▋     | 47/100 [09:32<10:44, 12.17s/it]
 48%|████▊     | 48/100 [09:44<10:33, 12.18s/it]
 48%|████▊     | 48/100 [09:44<10:33, 12.18s/it]
 49%|████▉     | 49/100 [09:57<10:21, 12.19s/it]
 49%|████▉     | 49/100 [09:57<10:21, 12.19s/it]
 50%|█████     | 50/100 [10:09<10:09, 12.18s/it]
 50%|█████     | 50/100 [10:09<10:09, 12.18s/it]
 51%|█████     | 51/100 [10:21<09:56, 12.17s/it]
 51%|█████     | 51/100 [10:21<09:56, 12.17s/it]
 52%|█████▏    | 52/100 [10:33<09:44, 12.18s/it]
 52%|█████▏    | 52/100 [10:33<09:44, 12.18s/it]
 53%|█████▎    | 53/100 [10:45<09:32, 12.19s/it]
 53%|█████▎    | 53/100 [10:45<09:32, 12.19s/it]
 54%|█████▍    | 54/100 [10:58<09:20, 12.18s/it]
 54%|█████▍    | 54/100 [10:58<09:20, 12.18s/it]
 55%|█████▌    | 55/100 [11:10<09:08, 12.18s/it]
 55%|█████▌    | 55/100 [11:10<09:08, 12.18s/it]
 56%|█████▌    | 56/100 [11:22<08:56, 12.19s/it]
 56%|█████▌    | 56/100 [11:22<08:56, 12.19s/it]
 57%|█████▋    | 57/100 [11:34<08:43, 12.18s/it]
 57%|█████▋    | 57/100 [11:34<08:43, 12.18s/it]
 58%|█████▊    | 58/100 [11:46<08:31, 12.18s/it]
 58%|█████▊    | 58/100 [11:46<08:31, 12.18s/it]
 59%|█████▉    | 59/100 [11:58<08:19, 12.18s/it]
 59%|█████▉    | 59/100 [11:58<08:19, 12.18s/it]
 60%|██████    | 60/100 [12:11<08:07, 12.18s/it]
 60%|██████    | 60/100 [12:11<08:07, 12.18s/it]
 61%|██████    | 61/100 [12:23<07:55, 12.19s/it]
 61%|██████    | 61/100 [12:23<07:55, 12.19s/it]
 62%|██████▏   | 62/100 [12:35<07:42, 12.18s/it]
 62%|██████▏   | 62/100 [12:35<07:42, 12.18s/it]
 63%|██████▎   | 63/100 [12:47<07:30, 12.18s/it]
 63%|██████▎   | 63/100 [12:47<07:30, 12.18s/it]
 64%|██████▍   | 64/100 [12:59<07:18, 12.18s/it]
 64%|██████▍   | 64/100 [12:59<07:18, 12.18s/it]
 65%|██████▌   | 65/100 [13:12<07:06, 12.18s/it]
 65%|██████▌   | 65/100 [13:12<07:06, 12.18s/it]
 66%|██████▌   | 66/100 [13:24<06:54, 12.18s/it]
 66%|██████▌   | 66/100 [13:24<06:54, 12.18s/it]
 67%|██████▋   | 67/100 [13:36<06:42, 12.19s/it]
 67%|██████▋   | 67/100 [13:36<06:42, 12.19s/it]
 68%|██████▊   | 68/100 [13:48<06:29, 12.17s/it]
 68%|██████▊   | 68/100 [13:48<06:29, 12.17s/it]
 69%|██████▉   | 69/100 [14:00<06:17, 12.16s/it]
 69%|██████▉   | 69/100 [14:00<06:17, 12.16s/it]
 70%|███████   | 70/100 [14:12<06:04, 12.16s/it]
 70%|███████   | 70/100 [14:12<06:04, 12.16s/it]
 71%|███████   | 71/100 [14:25<05:52, 12.16s/it]
 71%|███████   | 71/100 [14:25<05:52, 12.16s/it]
 72%|███████▏  | 72/100 [14:37<05:41, 12.19s/it]
 72%|███████▏  | 72/100 [14:37<05:41, 12.19s/it]
 73%|███████▎  | 73/100 [14:49<05:28, 12.18s/it]
 73%|███████▎  | 73/100 [14:49<05:28, 12.18s/it]
 74%|███████▍  | 74/100 [15:01<05:16, 12.18s/it]
 74%|███████▍  | 74/100 [15:01<05:16, 12.18s/it]
 75%|███████▌  | 75/100 [15:13<05:04, 12.19s/it]
 75%|███████▌  | 75/100 [15:13<05:04, 12.19s/it]
 76%|███████▌  | 76/100 [15:26<04:52, 12.19s/it]
 76%|███████▌  | 76/100 [15:26<04:52, 12.19s/it]
 77%|███████▋  | 77/100 [15:38<04:40, 12.19s/it]
 77%|███████▋  | 77/100 [15:38<04:40, 12.19s/it]
 78%|███████▊  | 78/100 [15:50<04:28, 12.19s/it]
 78%|███████▊  | 78/100 [15:50<04:28, 12.19s/it]
 79%|███████▉  | 79/100 [16:02<04:16, 12.20s/it]
 79%|███████▉  | 79/100 [16:02<04:16, 12.20s/it]
 80%|████████  | 80/100 [16:14<04:03, 12.17s/it]
 80%|████████  | 80/100 [16:14<04:03, 12.17s/it]
 81%|████████  | 81/100 [16:26<03:51, 12.18s/it]
 81%|████████  | 81/100 [16:26<03:51, 12.18s/it]
 82%|████████▏ | 82/100 [16:39<03:39, 12.18s/it]
 82%|████████▏ | 82/100 [16:39<03:39, 12.18s/it]
 83%|████████▎ | 83/100 [16:51<03:26, 12.16s/it]
 83%|████████▎ | 83/100 [16:51<03:26, 12.16s/it]
 84%|████████▍ | 84/100 [17:03<03:14, 12.18s/it]
 84%|████████▍ | 84/100 [17:03<03:14, 12.18s/it]
 85%|████████▌ | 85/100 [17:15<03:02, 12.18s/it]
 85%|████████▌ | 85/100 [17:15<03:02, 12.18s/it]
 86%|████████▌ | 86/100 [17:27<02:50, 12.18s/it]
 86%|████████▌ | 86/100 [17:27<02:50, 12.18s/it]
 87%|████████▋ | 87/100 [17:39<02:38, 12.18s/it]
 87%|████████▋ | 87/100 [17:39<02:38, 12.18s/it]
 88%|████████▊ | 88/100 [17:52<02:26, 12.18s/it]
 88%|████████▊ | 88/100 [17:52<02:26, 12.18s/it]
 89%|████████▉ | 89/100 [18:04<02:13, 12.18s/it]
 89%|████████▉ | 89/100 [18:04<02:13, 12.18s/it]
 90%|█████████ | 90/100 [18:16<02:01, 12.18s/it]
 90%|█████████ | 90/100 [18:16<02:01, 12.18s/it]
 91%|█████████ | 91/100 [18:28<01:49, 12.18s/it]
 91%|█████████ | 91/100 [18:28<01:49, 12.18s/it]
 92%|█████████▏| 92/100 [18:40<01:37, 12.20s/it]
 92%|█████████▏| 92/100 [18:40<01:37, 12.20s/it]
 93%|█████████▎| 93/100 [18:53<01:25, 12.21s/it]
 93%|█████████▎| 93/100 [18:53<01:25, 12.21s/it]
 94%|█████████▍| 94/100 [19:05<01:13, 12.19s/it]
 94%|█████████▍| 94/100 [19:05<01:13, 12.19s/it]
 95%|█████████▌| 95/100 [19:17<01:00, 12.18s/it]
 95%|█████████▌| 95/100 [19:17<01:00, 12.18s/it]
 96%|█████████▌| 96/100 [19:29<00:48, 12.18s/it]
 96%|█████████▌| 96/100 [19:29<00:48, 12.18s/it]
 97%|█████████▋| 97/100 [19:41<00:36, 12.19s/it]
 97%|█████████▋| 97/100 [19:41<00:36, 12.19s/it]
 98%|█████████▊| 98/100 [19:54<00:24, 12.19s/it]
 98%|█████████▊| 98/100 [19:54<00:24, 12.19s/it]
 99%|█████████▉| 99/100 [20:06<00:12, 12.18s/it]
 99%|█████████▉| 99/100 [20:06<00:12, 12.18s/it]
+Training completed. Do not forget to share your model on huggingface.co/models =)
+Saving PrefixEncoder
+[INFO|configuration_utils.py:473] 2024-01-26 13:15:40,038 >> Configuration saved in output/privacy_detection_pt-20240126-125436-128-2e-2/config.json
+[INFO|configuration_utils.py:594] 2024-01-26 13:15:40,039 >> Configuration saved in output/privacy_detection_pt-20240126-125436-128-2e-2/generation_config.json
+[INFO|modeling_utils.py:2495] 2024-01-26 13:15:40,068 >> Model weights saved in output/privacy_detection_pt-20240126-125436-128-2e-2/pytorch_model.bin
+[INFO|tokenization_utils_base.py:2433] 2024-01-26 13:15:40,069 >> tokenizer config file saved in output/privacy_detection_pt-20240126-125436-128-2e-2/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2442] 2024-01-26 13:15:40,069 >> Special tokens file saved in output/privacy_detection_pt-20240126-125436-128-2e-2/special_tokens_map.json

trainer_state.json ADDED Viewed

	@@ -0,0 +1,630 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.2723658051689861,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0198,
+      "loss": 0.8181,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0196,
+      "loss": 0.787,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0194,
+      "loss": 1.0047,
+      "step": 3
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0192,
+      "loss": 0.8688,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.019,
+      "loss": 0.7173,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0188,
+      "loss": 0.5175,
+      "step": 6
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.018600000000000002,
+      "loss": 0.7559,
+      "step": 7
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0184,
+      "loss": 0.9278,
+      "step": 8
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0182,
+      "loss": 0.6011,
+      "step": 9
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.018000000000000002,
+      "loss": 0.8014,
+      "step": 10
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0178,
+      "loss": 1.2581,
+      "step": 11
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0176,
+      "loss": 0.9886,
+      "step": 12
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0174,
+      "loss": 0.7866,
+      "step": 13
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0172,
+      "loss": 0.936,
+      "step": 14
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.017,
+      "loss": 1.0503,
+      "step": 15
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0168,
+      "loss": 0.5689,
+      "step": 16
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0166,
+      "loss": 0.8576,
+      "step": 17
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.016399999999999998,
+      "loss": 1.0946,
+      "step": 18
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.016200000000000003,
+      "loss": 0.9075,
+      "step": 19
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.016,
+      "loss": 1.1441,
+      "step": 20
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0158,
+      "loss": 0.7794,
+      "step": 21
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.015600000000000001,
+      "loss": 0.9574,
+      "step": 22
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0154,
+      "loss": 0.8937,
+      "step": 23
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0152,
+      "loss": 0.709,
+      "step": 24
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.015,
+      "loss": 0.8731,
+      "step": 25
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0148,
+      "loss": 0.719,
+      "step": 26
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0146,
+      "loss": 0.7419,
+      "step": 27
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0144,
+      "loss": 0.9224,
+      "step": 28
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.014199999999999999,
+      "loss": 1.0802,
+      "step": 29
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.013999999999999999,
+      "loss": 0.8187,
+      "step": 30
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0138,
+      "loss": 0.615,
+      "step": 31
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.013600000000000001,
+      "loss": 0.5214,
+      "step": 32
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0134,
+      "loss": 0.649,
+      "step": 33
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.013200000000000002,
+      "loss": 0.6523,
+      "step": 34
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.013000000000000001,
+      "loss": 0.7002,
+      "step": 35
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0128,
+      "loss": 0.6161,
+      "step": 36
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0126,
+      "loss": 1.0374,
+      "step": 37
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0124,
+      "loss": 1.0328,
+      "step": 38
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0122,
+      "loss": 0.7637,
+      "step": 39
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.012,
+      "loss": 0.6332,
+      "step": 40
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0118,
+      "loss": 0.74,
+      "step": 41
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0116,
+      "loss": 0.7284,
+      "step": 42
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.011399999999999999,
+      "loss": 0.9198,
+      "step": 43
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.011200000000000002,
+      "loss": 0.626,
+      "step": 44
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.011000000000000001,
+      "loss": 0.628,
+      "step": 45
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0108,
+      "loss": 0.5322,
+      "step": 46
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0106,
+      "loss": 0.7844,
+      "step": 47
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.010400000000000001,
+      "loss": 0.5957,
+      "step": 48
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0102,
+      "loss": 0.6681,
+      "step": 49
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.01,
+      "loss": 0.8281,
+      "step": 50
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0098,
+      "loss": 0.5284,
+      "step": 51
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0096,
+      "loss": 0.8251,
+      "step": 52
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0094,
+      "loss": 0.9845,
+      "step": 53
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0092,
+      "loss": 0.9525,
+      "step": 54
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.009000000000000001,
+      "loss": 0.9454,
+      "step": 55
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0088,
+      "loss": 0.4058,
+      "step": 56
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0086,
+      "loss": 0.5435,
+      "step": 57
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0084,
+      "loss": 0.6892,
+      "step": 58
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.008199999999999999,
+      "loss": 0.6426,
+      "step": 59
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.008,
+      "loss": 0.9414,
+      "step": 60
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0078000000000000005,
+      "loss": 0.7945,
+      "step": 61
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0076,
+      "loss": 0.6295,
+      "step": 62
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0074,
+      "loss": 0.7888,
+      "step": 63
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0072,
+      "loss": 0.5454,
+      "step": 64
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.006999999999999999,
+      "loss": 0.711,
+      "step": 65
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0068000000000000005,
+      "loss": 0.713,
+      "step": 66
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.006600000000000001,
+      "loss": 0.6058,
+      "step": 67
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0064,
+      "loss": 0.8203,
+      "step": 68
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0062,
+      "loss": 0.8275,
+      "step": 69
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.006,
+      "loss": 0.4923,
+      "step": 70
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0058,
+      "loss": 0.5219,
+      "step": 71
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.005600000000000001,
+      "loss": 0.9954,
+      "step": 72
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0054,
+      "loss": 0.6206,
+      "step": 73
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.005200000000000001,
+      "loss": 0.6064,
+      "step": 74
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.005,
+      "loss": 0.6584,
+      "step": 75
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0048,
+      "loss": 0.8461,
+      "step": 76
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0046,
+      "loss": 0.9615,
+      "step": 77
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0044,
+      "loss": 0.6508,
+      "step": 78
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0042,
+      "loss": 1.0089,
+      "step": 79
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.004,
+      "loss": 0.7515,
+      "step": 80
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0038,
+      "loss": 0.4172,
+      "step": 81
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0036,
+      "loss": 0.7634,
+      "step": 82
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0034000000000000002,
+      "loss": 0.585,
+      "step": 83
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0032,
+      "loss": 0.7668,
+      "step": 84
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.003,
+      "loss": 0.5403,
+      "step": 85
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0028000000000000004,
+      "loss": 0.5995,
+      "step": 86
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0026000000000000003,
+      "loss": 0.4515,
+      "step": 87
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0024,
+      "loss": 0.6288,
+      "step": 88
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0022,
+      "loss": 0.7387,
+      "step": 89
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.002,
+      "loss": 0.6517,
+      "step": 90
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0018,
+      "loss": 0.5389,
+      "step": 91
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0016,
+      "loss": 0.4433,
+      "step": 92
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0014000000000000002,
+      "loss": 0.6643,
+      "step": 93
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0012,
+      "loss": 0.5825,
+      "step": 94
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.001,
+      "loss": 0.7709,
+      "step": 95
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0008,
+      "loss": 0.562,
+      "step": 96
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0006,
+      "loss": 0.5581,
+      "step": 97
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0004,
+      "loss": 0.4679,
+      "step": 98
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5063,
+      "step": 99
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0,
+      "loss": 0.5527,
+      "step": 100
+    },
+    {
+      "epoch": 1.27,
+      "step": 100,
+      "total_flos": 1.323218757484544e+17,
+      "train_loss": 0.7395605874061585,
+      "train_runtime": 1218.4689,
+      "train_samples_per_second": 2.626,
+      "train_steps_per_second": 0.082
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1.323218757484544e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af0586708ab25020ad621ec87f7cd1129b0243acf75571d59d2e719620fb9ef3
+size 4920