llm-jp-3-13b-it-b01-conservative_lora
このモデルは、llm-jp-3-13bをベースに、Evolutionary Alpaca Generation 3のデータセットでファインチューニングを行った LoRA アダプタです。
動作環境
- GPU: NVIDIA L4(24GB)以上のGPUメモリ
- RAM: 16GB以上推奨
- Python 3.10以上
モデルの概要
- ベースモデル: llm-jp/llm-jp-3-13b
- 学習データ: GENIAC-Team-Ozaki/Evol-Alpaca-gen3-500_cleaned
- 手法: QLoRA(unslothを使用)
- コンテキスト長: 512トークン
データセット前処理
学習データは以下の手順で前処理を行いました:
- データセットの読み込みと変換:
from datasets import load_dataset
# データセットの読み込み
dataset = load_dataset("json", data_files="./evol_alpaca_dataset.json")
# プロンプトフォーマットの定義と適用
prompt = """### 指示\n{}\n### 回答\n{}"""
def formatting_prompts_func(examples):
instruction = examples["instruction"]
if examples.get("input"):
instruction = f"{instruction}\n{examples['input']}"
text = prompt.format(instruction, examples["output"]) + EOS_TOKEN
return {"formatted_text": text}
# データセットにフォーマットを適用
dataset = dataset.map(
formatting_prompts_func,
num_proc=4
)
- データセットの統計情報:
- 総サンプル数: 507
- 入力フィールドあり/なしの割合を保持
- instruction/outputの平均長を維持
出力の再現性について
本READMEの手順に従うことで、提出したjsonlファイルと同様の出力を再現することができます。再現性を確保するため、以下の点に注意してください:
- モデルの推論設定(repetition_penalty=1.2, do_sample=False など)を変更しない
- 入力プロンプトのフォーマット(### 指示\n...\n### 回答\n)を維持する
- PyTorchのバージョンは2.5.1以上を推奨
ベンチマーク出力方法
ELYZA-tasks-100-TVのベンチマーク出力を生成するための手順:
- 環境準備
import torch
from unsloth import FastLanguageModel
from tqdm import tqdm
- モデルとトークナイザーの準備
max_seq_length = 512
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="[YOUR_USERNAME]/llm-jp-3-13b-it-b01-conservative_lora",
dtype=None,
load_in_4bit=True,
trust_remote_code=True,
)
FastLanguageModel.for_inference(model)
- 評価用データの読み込みと推論実行
import json
datasets = []
with open("elyza-tasks-100-TV_0.jsonl", "r") as f:
item = ""
for line in f:
line = line.strip()
item += line
if item.endswith("}"):
datasets.append(json.loads(item))
item = ""
results = []
for dt in tqdm(datasets):
input = dt["input"]
prompt = f"""### 指示\n{input}\n### 回答\n"""
inputs = tokenizer([prompt], return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
use_cache=True,
do_sample=False,
repetition_penalty=1.2
)
prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
results.append({
"task_id": dt["task_id"],
"input": input,
"output": prediction
})
with open("llm-jp-3-13b-it-b01-conservative_output.jsonl", 'w', encoding='utf-8') as f:
for result in results:
json.dump(result, f, ensure_ascii=False)
f.write('\n')
学習設定
モデルは以下の設定で学習を行いました:
- ライブラリ: unsloth
- rank (r): 16
- target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
- lora_alpha: 32
- lora_dropout: 0.1
- バッチサイズ: 4
- 勾配累積ステップ: 4
- エポック数: 2
- 学習率: 1e-4
- warmup_steps: 50
- max_seq_length: 512
ライセンス
このモデルは、元のllm-jp-3-13bおよびEvolutionary Alpacaデータセットのライセンスに従います。商用利用の際は、各ライセンスをご確認ください。
引用
このモデルを使用する場合は、以下を引用してください:
@misc{llm-jp-3-13b-it-b01-conservative,
author = {[YOUR_NAME]},
title = {llm-jp-3-13b-it-b01-conservative: Instruction-tuned LLM-JP-3-13B},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face Hub},
howpublished = {\url{https://huggingface.co/[YOUR_USERNAME]/llm-jp-3-13b-it-b01-conservative_lora}},
}
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
HF Inference API was unable to determine this model’s pipeline type.
Model tree for sabia0080/llm-jp-3-13b-it-b01-conservative_lora
Base model
llm-jp/llm-jp-3-13b