nken1007
/

llm-jp-3-13b-it-ctx2048

@@ -25,20 +25,25 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
 # Implementation
-'''
 !pip uninstall unsloth -y
 !pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
 !pip install --upgrade torch
 !pip install --upgrade xformers
 import torch
 if torch.cuda.get_device_capability()[0] >= 8:
     !pip install --no-deps packaging ninja einops "flash-attn>=2.6.3"
 from google.colab import userdata
 HF_TOKEN=userdata.get('HF_TOKEN')
 from unsloth import FastLanguageModel
 import torch
 max_seq_length = 2048 # unslothではRoPEをサポートしているのでコンテキスト長は自由に設定可能
@@ -47,6 +52,7 @@ load_in_4bit = True # 今回は13Bモデルを扱うためTrue
 model_id = "llm-jp/llm-jp-3-13b"
 new_model_id = "llm-jp-3-13b-it-ctx2048" #Fine-Tuningしたモデルにつけたい名前、it: Instruction Tuning
 model, tokenizer = FastLanguageModel.from_pretrained(
     model_name=model_id,
     dtype=dtype,
@@ -54,10 +60,12 @@ model, tokenizer = FastLanguageModel.from_pretrained(
     trust_remote_code=True,
 )
 model = FastLanguageModel.get_peft_model(
     model,
     r = 32,
-    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj",],
     lora_alpha = 32,
     lora_dropout = 0.05,
     bias = "none",
@@ -68,15 +76,21 @@ model = FastLanguageModel.get_peft_model(
     max_seq_length = max_seq_length,
 )
 from datasets import load_dataset
 dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
 prompt = """### 指示
 {}
 ### 回答
 {}"""
 EOS_TOKEN = tokenizer.eos_token # トークナイザーのEOSトークン（文末トークン）
 def formatting_prompts_func(examples):
     input = examples["text"] # 入力データ
@@ -85,11 +99,77 @@ def formatting_prompts_func(examples):
     return { "formatted_text" : text, } # 新しいフィールド "formatted_text" を返す
 pass
 dataset = dataset.map(
     formatting_prompts_func,
     num_proc= 4, # 並列処理数を指定
 )
 from trl import SFTTrainer
 from transformers import TrainingArguments
 from unsloth import is_bfloat16_supported
@@ -120,8 +200,12 @@ trainer = SFTTrainer(
     ),
 )
 trainer_stats = trainer.train()
 import json
 datasets = []
 with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
@@ -133,7 +217,10 @@ with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
         datasets.append(json.loads(item))
         item = ""
 from tqdm import tqdm
 FastLanguageModel.for_inference(model)
 results = []
@@ -149,11 +236,13 @@ for dt in tqdm(datasets):
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
 with open(f"./{new_model_id}_output.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')
 model.push_to_hub(new_model_id, token=HF_TOKEN, private=True)
 tokenizer.push_to_hub(new_model_id, token=HF_TOKEN, private=True)
-'''

 # Implementation
+```python
 !pip uninstall unsloth -y
 !pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
+# Google Colab のデフォルトで入っているパッケージをアップグレード
 !pip install --upgrade torch
 !pip install --upgrade xformers
+# Install Flash Attention 2 for softcapping support
 import torch
 if torch.cuda.get_device_capability()[0] >= 8:
     !pip install --no-deps packaging ninja einops "flash-attn>=2.6.3"
+"""## モデルのロード"""
 from google.colab import userdata
 HF_TOKEN=userdata.get('HF_TOKEN')
+# llm-jp/llm-jp-3-13bを4bit量子化のqLoRA設定でロード
 from unsloth import FastLanguageModel
 import torch
 max_seq_length = 2048 # unslothではRoPEをサポートしているのでコンテキスト長は自由に設定可能
 model_id = "llm-jp/llm-jp-3-13b"
 new_model_id = "llm-jp-3-13b-it-ctx2048" #Fine-Tuningしたモデルにつけたい名前、it: Instruction Tuning
+# FastLanguageModel インスタンスを作成
 model, tokenizer = FastLanguageModel.from_pretrained(
     model_name=model_id,
     dtype=dtype,
     trust_remote_code=True,
 )
+# SFT用のモデルを用意
 model = FastLanguageModel.get_peft_model(
     model,
     r = 32,
+    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
+                      "gate_proj", "up_proj", "down_proj",],
     lora_alpha = 32,
     lora_dropout = 0.05,
     bias = "none",
     max_seq_length = max_seq_length,
 )
+# 学習に用いるデータセットの指定
 from datasets import load_dataset
 dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
+# 学習時のプロンプトフォーマット
 prompt = """### 指示
 {}
 ### 回答
 {}"""
+"""
+formatting_prompts_func: 各データをプロンプトに合わせた形式に合わせる
+"""
 EOS_TOKEN = tokenizer.eos_token # トークナイザーのEOSトークン（文末トークン）
 def formatting_prompts_func(examples):
     input = examples["text"] # 入力データ
     return { "formatted_text" : text, } # 新しいフィールド "formatted_text" を返す
 pass
+# # 各データにフォーマットを適用
 dataset = dataset.map(
     formatting_prompts_func,
     num_proc= 4, # 並列処理数を指定
 )
+dataset
+# データを確認
+print(dataset["train"]["formatted_text"][3])
+"""
+training_arguments: 学習の設定
+  - output_dir:
+      -トレーニング後のモデルを保存するディレクトリ
+  - per_device_train_batch_size:
+      - デバイスごとのトレーニングバッチサイズ
+  - per_device_eval_batch_size:
+      - デバイスごとの評価バッチサイズ
+  - gradient_accumulation_steps:
+      - 勾配を更新する前にステップを積み重ねる回数
+  - optim:
+      - オプティマイザの設定
+  - num_train_epochs:
+      - エポック数
+  - eval_strategy:
+      - 評価の戦略 ("no"/"steps"/"epoch")
+  - eval_steps:
+      - eval_strategyが"steps"のとき、評価を行うstep間隔
+  - logging_strategy:
+      - ログ記録の戦略
+  - logging_steps:
+      - ログを出力するステップ間隔
+  - warmup_steps:
+      - 学習率のウォームアップステップ数
+  - save_steps:
+      - モデルを保存するステップ間隔
+  - save_total_limit:
+      - 保存しておくcheckpointの数
+  - max_steps:
+      - トレーニングの最大ステップ数
+  - learning_rate:
+      - 学習率
+  - fp16:
+      - 16bit浮動小数点の使用設定（第8回演習を参考にすると良いです）
+  - bf16:
+      - BFloat16の使用設定
+  - group_by_length:
+      -  入力シーケンスの長さによりバッチをグループ化 (トレーニングの効率化)
+  - report_to:
+      - ログの送信先 ("wandb"/"tensorboard"など)
+"""
 from trl import SFTTrainer
 from transformers import TrainingArguments
 from unsloth import is_bfloat16_supported
     ),
 )
+#@title 学習実行
 trainer_stats = trainer.train()
+# ELYZA-tasks-100-TVの読み込み。事前にファイルをアップロードしてください
+# データセットの読み込み。
+# omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
 import json
 datasets = []
 with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
         datasets.append(json.loads(item))
         item = ""
+# 学習したモデルを用いてタスクを実行
 from tqdm import tqdm
+# 推論するためにモデルのモードを変更
 FastLanguageModel.for_inference(model)
 results = []
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
+# jsonlで保存
 with open(f"./{new_model_id}_output.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')
+# モデルとトークナイザーをHugging Faceにアップロード
 model.push_to_hub(new_model_id, token=HF_TOKEN, private=True)
 tokenizer.push_to_hub(new_model_id, token=HF_TOKEN, private=True)
+```