LLM-JP 3-13B Finetune

概要

このモデルは、LLM-JP 3-13B をベースに、指定された Elyza タスクデータセットでファインチューニングされたモデルです。このモデルは日本語の指示に基づく生成タスクに適しており、以下の方法で利用できます。

使用方法

推論の実行

以下のコードを使用して、モデルをロードし、推論を実行できます。

from transformers import AutoModelForCausalLM, AutoTokenizer

# モデルとトークナイザーのロード
model_id = "deepkick/llm-jp-3-13b-finetune"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# 推論
input_text = "日本語での生成タスクの例を示してください。"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
output = model.generate(input_ids, max_new_tokens=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))

JSONLファイルの使用方法

JSONLファイル形式の入力データを使ってバッチ推論を行う場合、以下のコードを参考にしてください。

import json
from transformers import AutoModelForCausalLM, AutoTokenizer

# モデルのロード
model_id = "deepkick/llm-jp-3-13b-finetune"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# JSONLファイルの読み込み
with open("llm-jp-3-13b-finetune-outputs.jsonl", "r") as f:
    datasets = [json.loads(line) for line in f]

# 推論
results = []
for data in datasets:
    input_text = data["input"]
    input_ids = tokenizer(input_text, return_tensors="pt").input_ids
    output = model.generate(input_ids, max_new_tokens=50)
    output_text = tokenizer.decode(output[0], skip_special_tokens=True)
    results.append({"task_id": data["task_id"], "output": output_text})

# 結果を保存
with open("outputs.jsonl", "w") as f:
    for result in results:
        f.write(json.dumps(result) + "\n")

モデルのトレーニング詳細

ベースモデル: llm-jp/llm-jp-3-13b
トレーニングデータ: Elyza-tasks-100-TV データセット
トレーニング手法: LoRA（Low-Rank Adaptation）によるファインチューニング

JSONLファイルについて

提出用のJSONLファイルには、以下の形式でタスクごとの出力が含まれています。

{"task_id": "0", "output": "タスク0の生成結果"}
{"task_id": "1", "output": "タスク1の生成結果"}

著者

名前: deepkick
Hugging Face: deepkick

ポイント

「推論コード例」: 具体的なコード例を追加。
「JSONLファイルの使用方法」: バッチ処理での使用方法を明示。
利用者視点: モデルのロードから推論までの流れを簡潔に説明。