Training in progress, epoch 1

Browse files

Files changed (10) hide show

added_tokens.json +7 -0
config.json +32 -0
pytorch_model.bin +3 -0
special_tokens_map.json +9 -0
spiece.model +3 -0
tokenizer_config.json +76 -0
train-v1.1.json +0 -0
train_factual_consistency.ipynb +1489 -0
training_args.bin +3 -0
utils.py +108 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "<pad>": 0,
+  "<unk>": 1,
+  "[CLS]": 2,
+  "[MASK]": 4,
+  "[SEP]": 3
+}

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "line-corporation/line-distilbert-base-japanese",
+  "activation": "gelu",
+  "architectures": [
+    "ConsistentSentenceRegressor"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_hidden_states": true,
+  "pad_token_id": 0,
+  "problem_type": "regression",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": true,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0",
+  "vocab_size": 32768
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1f295326993252bd9df044d41ab49e3250373aee8f37f46cb0072b73e52d1f7
+size 274752173

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "<pad>",
+  "sep_token": "[SEP]",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcfafc8c0662d9c8f39621a64c74260f2ad120310c8dd24886de2dddaf599b4e
+size 439391

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "auto_map": {
+    "AutoTokenizer": [
+      "line-corporation/line-distilbert-base-japanese--distilbert_japanese_tokenizer.DistilBertJapaneseTokenizer",
+      null
+    ]
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "do_subword_tokenize": true,
+  "do_word_tokenize": true,
+  "eos_token": "[SEP]",
+  "jumanpp_kwargs": null,
+  "keep_accents": true,
+  "mask_token": "[MASK]",
+  "mecab_kwargs": {
+    "mecab_dic": "unidic_lite"
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "<pad>",
+  "remove_space": true,
+  "sep_token": "[SEP]",
+  "subword_tokenizer_type": "sentencepiece",
+  "sudachi_kwargs": null,
+  "tokenize_chinese_chars": false,
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "tokenizer_file": null,
+  "unk_token": "<unk>",
+  "word_tokenizer_type": "mecab"
+}

train-v1.1.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_factual_consistency.ipynb ADDED Viewed

	@@ -0,0 +1,1489 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "b12ae8a3-9e08-402c-894c-31697fad6c56",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "6e13508dc55b4712a4d6e91647a932a3",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "VBox(children=(HTML(value='<center> <img\\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "from huggingface_hub import notebook_login\n",
+    "\n",
+    "notebook_login()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "160c80c1-0ca4-45df-8171-87cd3c88a223",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n",
+    "from transformers import (\n",
+    "    AutoTokenizer,\n",
+    "    DataCollatorWithPadding,\n",
+    "    Trainer,\n",
+    "    TrainingArguments,\n",
+    ")\n",
+    "from utils import ConsistentSentenceRegressor, get_metrics, load_dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "25800588-5d42-4524-9dc6-a6a0c180b8b0",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                  text  label\n",
+      "512  カーキ色の服を着た男性が、口元にリンゴを当てています。[SEP]カーキ色の服を着た男性が、口...    0.0\n",
+      "513    男性がグラウンドでボールを投げています。[SEP]白い髯を生やした男性がボールを投げています。    0.5\n",
+      "514  椅子に座った子供が、手づかみで食事をしています。[SEP]椅子に座った子供が手づかみで、食事...    1.0\n",
+      "515         プロペラ機が何台も駐機しています。[SEP]プロペラ機が何台も連なって飛んでいます。    0.0\n",
+      "516  消火栓から水が勢いよく噴き出しています。[SEP]水が噴き出している消火栓の水を浴びるように...    0.5\n",
+      "517  冷蔵庫のないキッチンにナイフとフォークが置かれています。[SEP]冷蔵庫の置かれたキッチンに...    0.0\n",
+      "518  うみでサーフィンをしているひとがいます。[SEP]黒いウェットスーツを着た人がサーフボードに...    0.5\n",
+      "519             池から白い鳥が飛び立っています。[SEP]森にある水の上を鳥が飛んでいます。    0.5\n",
+      "520       丈夫なビーチパラソルが立っています。[SEP]ビーチパラソルの支柱が折れ曲がっています。    0.0\n",
+      "521  白髪の男性が少女から花束を受け取っています。[SEP]花束を持った男性の前に多くの子供たちが...    0.5\n",
+      "                                                text  label\n",
+      "0    赤いひとつの傘に、二人の人が入っています。[SEP]歩道を歩く通行人が傘をさして歩いています。    0.5\n",
+      "1              川を小さなボートが進んで行きます。[SEP]川を豪華客船が進んでいきます。    0.0\n",
+      "2  ゲレンデのこぶでスキージャンプしています。[SEP]雪上でモーグルを楽しむ水色のウェアを着た女性。    0.5\n",
+      "3       黒いお皿に乗っているピザをカットしています。[SEP]黒い皿の上にピザが盛られています。    1.0\n",
+      "4    女性が目を細めて携帯電話で話をしています。[SEP]目を細めた女性が携帯電話で話をしています。    1.0\n",
+      "5  バナナやパパイヤなどの果物が売られている。[SEP]台の上にはバナナなどの青果が並べられています。    0.5\n",
+      "6  ヘッドライトを点灯させた白いバスが駐車場に止まっています。[SEP]ライトを点灯させているバ...    1.0\n",
+      "7  水面の上に、カイトサーフィンの凧が揚がっています。[SEP]海の上に水上スポーツ用の凧が揚が...    0.5\n",
+      "8        ホットドッグを野外で食べている人たちです。[SEP]家の中でホットドッグを食べている。    0.0\n",
+      "9  草が生い茂っている所に、3頭のゾウがいます。[SEP]草むらの中に三頭のゾウが立っているとこ...    0.5\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "37636d1b642c4b5382572caabd6f7466",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Map:   0%|          | 0/19561 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Asking to pad to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no padding.\n",
+      "Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "901f21c168624db8aa6e8881dd30df60",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Map:   0%|          | 0/512 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "tokenizer = AutoTokenizer.from_pretrained(\"line-corporation/line-distilbert-base-japanese\")\n",
+    "dataset = load_dataset('train-v1.1.json')\n",
+    "tokenized_dataset = dataset.map(\n",
+    "    lambda examples: tokenizer(examples[\"text\"], padding='max_length', truncation=True), batched=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "6bc83d4c-378c-4313-b641-8ead0c02f715",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "\n",
+       "    <div>\n",
+       "      \n",
+       "      <progress value='406' max='30600' style='width:300px; height:20px; vertical-align: middle;'></progress>\n",
+       "      [  406/30600 00:45 < 56:06, 8.97 it/s, Epoch 1.32/100]\n",
+       "    </div>\n",
+       "    <table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       " <tr style=\"text-align: left;\">\n",
+       "      <th>Epoch</th>\n",
+       "      <th>Training Loss</th>\n",
+       "      <th>Validation Loss</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <td>1</td>\n",
+       "      <td>No log</td>\n",
+       "      <td>-3.658799</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table><p>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 80])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 76])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 68])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 47])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 47])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 48])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 80])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 49])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 68])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 48])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 75])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 88])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 76])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 87])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 47])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 47])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 68])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 88])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 80])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 116])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 87])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 49])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 61])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 80])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 75])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 49])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 49])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 75])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([41, 48])\n",
+      "torch.Size([41, 1])\n",
+      "torch.Size([41])\n",
+      "torch.Size([512, 75])\n",
+      "torch.Size([512, 1])\n",
+      "torch.Size([512])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 73])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 76])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 74])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 71])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 68])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 49])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 58])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 50])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 69])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 65])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 77])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 52])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 72])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 67])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 64])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 88])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 80])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 62])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 48])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 56])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 60])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 54])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 51])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 70])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 79])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 63])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 55])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 57])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 53])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n",
+      "torch.Size([64, 59])\n",
+      "torch.Size([64, 1])\n",
+      "torch.Size([64])\n"
+     ]
+    },
+    {
+     "ename": "KeyboardInterrupt",
+     "evalue": "",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mKeyboardInterrupt\u001b[0m                         Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[7], line 28\u001b[0m\n\u001b[1;32m     18\u001b[0m data_collator \u001b[38;5;241m=\u001b[39m DataCollatorWithPadding(tokenizer\u001b[38;5;241m=\u001b[39mtokenizer)\n\u001b[1;32m     19\u001b[0m trainer \u001b[38;5;241m=\u001b[39m Trainer(\n\u001b[1;32m     20\u001b[0m     model\u001b[38;5;241m=\u001b[39mmodel,\n\u001b[1;32m     21\u001b[0m     args\u001b[38;5;241m=\u001b[39mtraining_args,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m     25\u001b[0m     data_collator\u001b[38;5;241m=\u001b[39mdata_collator,\n\u001b[1;32m     26\u001b[0m )\n\u001b[0;32m---> 28\u001b[0m \u001b[43mtrainer\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mtrain\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m     29\u001b[0m trainer\u001b[38;5;241m.\u001b[39mpush_to_hub(\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mfactual-consistency-regression-ja\u001b[39m\u001b[38;5;124m'\u001b[39m)\n",
+      "File \u001b[0;32m/opt/conda/lib/python3.10/site-packages/transformers/trainer.py:1582\u001b[0m, in \u001b[0;36mTrainer.train\u001b[0;34m(self, resume_from_checkpoint, trial, ignore_keys_for_eval, **kwargs)\u001b[0m\n\u001b[1;32m   1579\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[1;32m   1580\u001b[0m     \u001b[38;5;66;03m# Disable progress bars when uploading models during checkpoints to avoid polluting stdout\u001b[39;00m\n\u001b[1;32m   1581\u001b[0m     hf_hub_utils\u001b[38;5;241m.\u001b[39mdisable_progress_bars()\n\u001b[0;32m-> 1582\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43minner_training_loop\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m   1583\u001b[0m \u001b[43m        \u001b[49m\u001b[43margs\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1584\u001b[0m \u001b[43m        \u001b[49m\u001b[43mresume_from_checkpoint\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mresume_from_checkpoint\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1585\u001b[0m \u001b[43m        \u001b[49m\u001b[43mtrial\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrial\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1586\u001b[0m \u001b[43m        \u001b[49m\u001b[43mignore_keys_for_eval\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mignore_keys_for_eval\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1587\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1588\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n\u001b[1;32m   1589\u001b[0m     hf_hub_utils\u001b[38;5;241m.\u001b[39menable_progress_bars()\n",
+      "File \u001b[0;32m/opt/conda/lib/python3.10/site-packages/transformers/trainer.py:1950\u001b[0m, in \u001b[0;36mTrainer._inner_training_loop\u001b[0;34m(self, batch_size, args, resume_from_checkpoint, trial, ignore_keys_for_eval)\u001b[0m\n\u001b[1;32m   1945\u001b[0m         nn\u001b[38;5;241m.\u001b[39mutils\u001b[38;5;241m.\u001b[39mclip_grad_norm_(\n\u001b[1;32m   1946\u001b[0m             amp\u001b[38;5;241m.\u001b[39mmaster_params(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39moptimizer),\n\u001b[1;32m   1947\u001b[0m             args\u001b[38;5;241m.\u001b[39mmax_grad_norm,\n\u001b[1;32m   1948\u001b[0m         )\n\u001b[1;32m   1949\u001b[0m     \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m-> 1950\u001b[0m         \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43maccelerator\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mclip_grad_norm_\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m   1951\u001b[0m \u001b[43m            \u001b[49m\u001b[43mmodel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mparameters\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1952\u001b[0m \u001b[43m            \u001b[49m\u001b[43margs\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mmax_grad_norm\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m   1953\u001b[0m \u001b[43m        \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1955\u001b[0m \u001b[38;5;66;03m# Optimizer step\u001b[39;00m\n\u001b[1;32m   1956\u001b[0m optimizer_was_run \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mTrue\u001b[39;00m\n",
+      "File \u001b[0;32m/opt/conda/lib/python3.10/site-packages/accelerate/accelerator.py:2121\u001b[0m, in \u001b[0;36mAccelerator.clip_grad_norm_\u001b[0;34m(self, parameters, max_norm, norm_type)\u001b[0m\n\u001b[1;32m   2119\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[1;32m   2120\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39munscale_gradients()\n\u001b[0;32m-> 2121\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mtorch\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mnn\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mutils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mclip_grad_norm_\u001b[49m\u001b[43m(\u001b[49m\u001b[43mparameters\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmax_norm\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mnorm_type\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mnorm_type\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/opt/conda/lib/python3.10/site-packages/torch_xla/_patched_functions.py:49\u001b[0m, in \u001b[0;36mclip_grad_norm_\u001b[0;34m(parameters, max_norm, norm_type, error_if_nonfinite, foreach)\u001b[0m\n\u001b[1;32m     44\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m error_if_nonfinite \u001b[38;5;129;01mand\u001b[39;00m (total_norm\u001b[38;5;241m.\u001b[39misnan() \u001b[38;5;129;01mor\u001b[39;00m total_norm\u001b[38;5;241m.\u001b[39misinf()):\n\u001b[1;32m     45\u001b[0m   \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mRuntimeError\u001b[39;00m(\n\u001b[1;32m     46\u001b[0m       \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mThe norm of order \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mnorm_type\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m for a gradient from `parameters` \u001b[39m\u001b[38;5;124m'\u001b[39m\n\u001b[1;32m     47\u001b[0m       \u001b[38;5;124m'\u001b[39m\u001b[38;5;124mis non-finite, so it cannot be clipped. This error can be \u001b[39m\u001b[38;5;124m'\u001b[39m\n\u001b[1;32m     48\u001b[0m       \u001b[38;5;124m'\u001b[39m\u001b[38;5;124mdisabled with `error_if_nonfinite=False`\u001b[39m\u001b[38;5;124m'\u001b[39m)\n\u001b[0;32m---> 49\u001b[0m clip_coef \u001b[38;5;241m=\u001b[39m \u001b[43mtorch\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mtensor\u001b[49m\u001b[43m(\u001b[49m\u001b[43mmax_norm\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mdevice\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdevice\u001b[49m\u001b[43m)\u001b[49m \u001b[38;5;241m/\u001b[39m (total_norm \u001b[38;5;241m+\u001b[39m \u001b[38;5;241m1e-6\u001b[39m)\n\u001b[1;32m     50\u001b[0m clip_value \u001b[38;5;241m=\u001b[39m torch\u001b[38;5;241m.\u001b[39mwhere(clip_coef \u001b[38;5;241m<\u001b[39m \u001b[38;5;241m1\u001b[39m, clip_coef,\n\u001b[1;32m     51\u001b[0m                          torch\u001b[38;5;241m.\u001b[39mtensor(\u001b[38;5;241m1.\u001b[39m, device\u001b[38;5;241m=\u001b[39mdevice))\n\u001b[1;32m     52\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m p \u001b[38;5;129;01min\u001b[39;00m parameters:\n",
+      "\u001b[0;31mKeyboardInterrupt\u001b[0m: "
+     ]
+    }
+   ],
+   "source": [
+    "model = ConsistentSentenceRegressor(\n",
+    "    freeze_bert=True)\n",
+    "\n",
+    "training_args = TrainingArguments(\n",
+    "    output_dir=\".\",\n",
+    "    learning_rate=1e-5,\n",
+    "    per_device_train_batch_size=64,\n",
+    "    num_train_epochs=100,\n",
+    "    weight_decay=0.02,\n",
+    "    evaluation_strategy=\"epoch\",\n",
+    "    eval_accumulation_steps=1,\n",
+    "    save_strategy=\"epoch\",\n",
+    "    load_best_model_at_end=True,\n",
+    "    push_to_hub=True,\n",
+    ")\n",
+    "\n",
+    "data_collator = DataCollatorWithPadding(tokenizer=tokenizer)\n",
+    "trainer = Trainer(\n",
+    "    model=model,\n",
+    "    args=training_args,\n",
+    "    train_dataset=tokenized_dataset[\"train\"],\n",
+    "    eval_dataset=tokenized_dataset[\"test\"],\n",
+    "    tokenizer=tokenizer,\n",
+    "    data_collator=data_collator,\n",
+    ")\n",
+    "\n",
+    "trainer.train()\n",
+    "trainer.push_to_hub('factual-consistency-regression-ja')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a6eb93f7-5a38-49a2-be0d-e42267e23a0a",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "3638c8d8-fc85-4caf-83a4-4fd2ad6fb95d",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "environment": {
+   "kernel": "python3",
+   "name": "pytorch-gpu.2-0.m112",
+   "type": "gcloud",
+   "uri": "gcr.io/deeplearning-platform-release/pytorch-gpu.2-0:m112"
+  },
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.12"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d7456b16ac0d734668b10f0a43291751cb4c4aa6ce7c6112c5e87aaf79a0413
+size 4027

utils.py ADDED Viewed

	@@ -0,0 +1,108 @@

+import json
+import pandas as pd
+import datasets
+import numpy as np
+import evaluate
+import torch
+from transformers import AutoModel, DistilBertForSequenceClassification
+from transformers.modeling_outputs import SequenceClassifierOutput
+from typing import Optional
+SEP_TOKEN = '[SEP]'
+LABEL2NUM = {'entailment': 1, 'neutral': 0.5, 'contradiction': 0}
+def format_dataset(arr):
+    text = [el['sentence1'] + SEP_TOKEN + el['sentence2'] for el in arr]
+    label = [LABEL2NUM[el['label']] for el in arr]
+    new_df = pd.DataFrame({'text': text, 'label': label})
+    return new_df.sample(frac=1, random_state=42).reset_index(drop=True)
+# Load dataset
+def load_dataset(path):
+    train_array = []
+    with open(path) as f:
+        for line in f.readlines():
+            if line:
+                train_array.append(json.loads(line))
+    df = format_dataset(train_array)
+    # Split dataset into train and val
+    df_train = df.iloc[512:, :]
+    # We do not need much test data
+    df_test = df.iloc[:512, :]
+    print(df_train[:10])
+    print(df_test[:10])
+    factual_consistency_dataset = datasets.dataset_dict.DatasetDict()
+    factual_consistency_dataset["train"] = datasets.dataset_dict.Dataset.from_pandas(
+        df_train[["text", "label"]])
+    factual_consistency_dataset["test"] = datasets.dataset_dict.Dataset.from_pandas(
+        df_test[["text", "label"]])
+    return factual_consistency_dataset
+class ConsistentSentenceRegressor(DistilBertForSequenceClassification):
+    def __init__(self, freeze_bert=True):
+        base_model = AutoModel.from_pretrained(
+            'line-corporation/line-distilbert-base-japanese')
+        config = base_model.config
+        config.problem_type = "regression"
+        config.num_labels = 1
+        super(ConsistentSentenceRegressor, self).__init__(config=config)
+        self.distilbert = base_model
+        # Replace the classifier with a single-neuron linear layer for regression
+        self.classifier = torch.nn.Linear(config.dim, config.num_labels)
+        if not freeze_bert:
+            return
+        for param in self.distilbert.parameters():
+            param.requires_grad = False
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ):
+        print(input_ids.shape)
+        outputs = super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+        print(outputs.logits.shape)
+        logits = outputs.logits.squeeze(-1)  # Remove the last dimension to match target tensor shape
+        print(logits.shape)
+        return logits
+# Set up evaluation metridef get_metrics():
+def get_metrics():
+    metric = evaluate.load("mse")
+    def compute_metrics(eval_pred):
+        predictions, labels = eval_pred
+        print(predictions.shape)
+        print(labels.shape)
+        return metric.compute(predictions=predictions, references=labels)
+    return compute_metrics