llm-jp-3-13b-it-b01-conservative_lora

このモデルは、llm-jp-3-13bをベースに、Evolutionary Alpaca Generation 3のデータセットでファインチューニングを行った LoRA アダプタです。

動作環境

GPU: NVIDIA L4（24GB）以上のGPUメモリ
RAM: 16GB以上推奨
Python 3.10以上

モデルの概要

ベースモデル: llm-jp/llm-jp-3-13b
学習データ: GENIAC-Team-Ozaki/Evol-Alpaca-gen3-500_cleaned
手法: QLoRA（unslothを使用）
コンテキスト長: 512トークン

データセット前処理

学習データは以下の手順で前処理を行いました：

データセットの読み込みと変換：

from datasets import load_dataset

# データセットの読み込み
dataset = load_dataset("json", data_files="./evol_alpaca_dataset.json")

# プロンプトフォーマットの定義と適用
prompt = """### 指示\n{}\n### 回答\n{}"""
def formatting_prompts_func(examples):
    instruction = examples["instruction"]
    if examples.get("input"):
        instruction = f"{instruction}\n{examples['input']}"
    text = prompt.format(instruction, examples["output"]) + EOS_TOKEN
    return {"formatted_text": text}

# データセットにフォーマットを適用
dataset = dataset.map(
    formatting_prompts_func,
    num_proc=4
)

データセットの統計情報：

総サンプル数: 507
入力フィールドあり/なしの割合を保持
instruction/outputの平均長を維持

出力の再現性について

本READMEの手順に従うことで、提出したjsonlファイルと同様の出力を再現することができます。再現性を確保するため、以下の点に注意してください：

モデルの推論設定（repetition_penalty=1.2, do_sample=False など）を変更しない
入力プロンプトのフォーマット（### 指示\n...\n### 回答\n）を維持する
PyTorchのバージョンは2.5.1以上を推奨

ベンチマーク出力方法

ELYZA-tasks-100-TVのベンチマーク出力を生成するための手順：

環境準備

import torch
from unsloth import FastLanguageModel
from tqdm import tqdm

モデルとトークナイザーの準備

max_seq_length = 512
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="[YOUR_USERNAME]/llm-jp-3-13b-it-b01-conservative_lora",
    dtype=None,
    load_in_4bit=True,
    trust_remote_code=True,
)

FastLanguageModel.for_inference(model)

評価用データの読み込みと推論実行

import json
datasets = []
with open("elyza-tasks-100-TV_0.jsonl", "r") as f:
    item = ""
    for line in f:
        line = line.strip()
        item += line
        if item.endswith("}"):
            datasets.append(json.loads(item))
            item = ""

results = []
for dt in tqdm(datasets):
    input = dt["input"]
    prompt = f"""### 指示\n{input}\n### 回答\n"""
    
    inputs = tokenizer([prompt], return_tensors="pt").to(model.device)
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        use_cache=True,
        do_sample=False,
        repetition_penalty=1.2
    )
    prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
    
    results.append({
        "task_id": dt["task_id"],
        "input": input,
        "output": prediction
    })

with open("llm-jp-3-13b-it-b01-conservative_output.jsonl", 'w', encoding='utf-8') as f:
    for result in results:
        json.dump(result, f, ensure_ascii=False)
        f.write('\n')

学習設定

モデルは以下の設定で学習を行いました：

ライブラリ: unsloth
rank (r): 16
target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
lora_alpha: 32
lora_dropout: 0.1
バッチサイズ: 4
勾配累積ステップ: 4
エポック数: 2
学習率: 1e-4
warmup_steps: 50
max_seq_length: 512

ライセンス

このモデルは、元のllm-jp-3-13bおよびEvolutionary Alpacaデータセットのライセンスに従います。商用利用の際は、各ライセンスをご確認ください。

引用

このモデルを使用する場合は、以下を引用してください：

@misc{llm-jp-3-13b-it-b01-conservative,
  author = {[YOUR_NAME]},
  title = {llm-jp-3-13b-it-b01-conservative: Instruction-tuned LLM-JP-3-13B},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face Hub},
  howpublished = {\url{https://huggingface.co/[YOUR_USERNAME]/llm-jp-3-13b-it-b01-conservative_lora}},
}

sabia0080
/

llm-jp-3-13b-it-b01-conservative_lora