Upload 8 files

Browse files

Files changed (8) hide show

ReadMe.md +3 -0
SentimentAnalysis.py +129 -0
config.json +37 -0
pytorch_model.bin +3 -0
special_tokens_map.json +7 -0
tokenizer_config.json +19 -0
training_args.bin +3 -0
vocab.txt +0 -0

ReadMe.md ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ 以下のサイトで紹介されている訓練を実行したもの
2	+
3	+ - https://dev.classmethod.jp/articles/huggingface-jp-text-classification/#toc-17

SentimentAnalysis.py ADDED Viewed

	@@ -0,0 +1,129 @@

+# %% [markdown]
+# ## Hugging Faceを使って事前学習モデルを日本語の感情分析用にファインチューニングしてみた
+# 以下で紹介されているコードを写経したもの
+# https://dev.classmethod.jp/articles/huggingface-jp-text-classification/
+# %%
+from datasets import load_dataset
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+from transformers import TrainingArguments
+from transformers import Trainer
+from sklearn.metrics import accuracy_score, f1_score
+from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix
+import torch
+import matplotlib.pyplot as plt
+import numpy as np
+# %%
+print('gpu available:',torch.cuda.is_available())
+# %% [markdown]
+# ## データセット
+# %%
+dataset = load_dataset("tyqiangz/multilingual-sentiments", "japanese")
+# %%
+# データフレームとして扱う
+dataset.set_format(type='pandas')
+train_df = dataset['train'][:]
+# %%
+def label_int2str(x):
+	return dataset["train"].features["label"].int2str(x)
+train_df["label_name"] = train_df["label"].apply(label_int2str)
+# %%
+dataset.reset_format()
+# %%
+from transformers import AutoTokenizer
+model_ckpt = "cl-tohoku/bert-base-japanese-whole-word-masking"
+tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
+# %%
+def tokenize(batch):
+    return tokenizer(batch["text"], padding=True, truncation=True)
+# %%
+dataset_encoded = dataset.map(tokenize, batched=True, batch_size=None)
+# %% [markdown]
+# ## モデル
+# %%
+import torch
+from transformers import AutoModelForSequenceClassification
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(device)
+num_labels = 3
+model = (AutoModelForSequenceClassification
+    .from_pretrained(model_ckpt, num_labels=num_labels)
+    .to(device))
+# %%
+from sklearn.metrics import accuracy_score, f1_score
+def compute_metrics(pred):
+    labels = pred.label_ids
+    preds = pred.predictions.argmax(-1)
+    f1 = f1_score(labels, preds, average="weighted")
+    acc = accuracy_score(labels, preds)
+    return {"accuracy": acc, "f1": f1}
+# %%
+from transformers import TrainingArguments
+batch_size = 16
+logging_steps = len(dataset_encoded["train"]) // batch_size
+model_name = "sample-text-classification-bert"
+training_args = TrainingArguments(
+    output_dir=model_name,
+    num_train_epochs=10,
+    learning_rate=2e-5,
+    per_device_train_batch_size=batch_size,
+    per_device_eval_batch_size=batch_size,
+    weight_decay=0.01,
+    evaluation_strategy="epoch",
+    disable_tqdm=False,
+    logging_steps=logging_steps,
+    push_to_hub=False,
+    log_level="error"
+)
+# %%
+from transformers import Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    compute_metrics=compute_metrics,
+    train_dataset=dataset_encoded["train"],
+    eval_dataset=dataset_encoded["validation"],
+    tokenizer=tokenizer
+)
+print('start training..')
+trainer.train()
+# %%
+# ラベル情報付与
+id2label = {}
+for i in range(dataset["train"].features["label"].num_classes):
+    id2label[i] = dataset["train"].features["label"].int2str(i)
+label2id = {}
+for i in range(dataset["train"].features["label"].num_classes):
+    label2id[dataset["train"].features["label"].int2str(i)] = i
+trainer.model.config.id2label = id2label
+trainer.model.config.label2id = label2id
+# %%
+# 保存
+print('save model.')
+trainer.save_model('sample-text-classification-bert')

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "positive",
+    "1": "neutral",
+    "2": "negative"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "negative": 2,
+    "neutral": 1,
+    "positive": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efaeeb76dc6ec51e0d40e3fadf0538b5b83825be30faf9c74f8bc0b525c9a146
+size 442545135

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "do_subword_tokenize": true,
+  "do_word_tokenize": true,
+  "jumanpp_kwargs": null,
+  "mask_token": "[MASK]",
+  "mecab_kwargs": null,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "subword_tokenizer_type": "wordpiece",
+  "sudachi_kwargs": null,
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "unk_token": "[UNK]",
+  "word_tokenizer_type": "mecab"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90919965fa8d550dd2517104570f80e2ff56984cbd40408d9c74c012ffed307d
+size 4015

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff