|
--- |
|
license: apache-2.0 |
|
language: |
|
- ja |
|
- en |
|
library_name: transformers |
|
tags: |
|
- japanese |
|
--- |
|
|
|
# Tanuki-8x8B-dpo-v1.0 |
|
## (READMEを更新中です) |
|
|
|
## モデルについて |
|
|
|
Tanuki-8x8Bは、フルスクラッチでトークン事前学習された8x8Bパラメータ(総パラメータ約47B、アクティブパラメータ約13B)の大規模言語モデルです。 |
|
Tanuki-8x8B-dpo-v1.0は、Tanuki-8x8BにSFTおよびDPOを適用し作成された対話用モデルです。 |
|
|
|
## 量子化モデル |
|
- [AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ) |
|
- [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit) |
|
- [GPTQ 8bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bit) |
|
- [GGUF量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GGUF)* |
|
|
|
*GGUF版は性能低下が発生している可能性があり、非推奨 |
|
|
|
## 使い方 |
|
|
|
```python |
|
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer |
|
|
|
model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0", device_map="auto", torch_dtype="auto", trust_remote_code=True) |
|
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0") |
|
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True) |
|
|
|
messages = [ |
|
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"}, |
|
{"role": "user", "content": "AIによって私たちの暮らしはどのように変わりますか?"} |
|
] |
|
|
|
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) |
|
output_ids = model.generate(input_ids, |
|
max_new_tokens=1024, |
|
temperature=0.5, |
|
streamer=streamer) |
|
``` |
|
|
|
## プロンプト形式 |
|
Tanuki-8x8B-dpo-v1.0は日本語版Alpacaのプロンプトフォーマットを利用します。 |
|
``` |
|
<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。 |
|
|
|
### 指示: |
|
AIによって私たちの暮らしはどのように変わりますか? |
|
|
|
### 応答: |
|
|
|
``` |
|
|
|
なお、本モデルはデフォルトのシステムプロンプトである`以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。`以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。 |
|
|
|
## ベンチマーク |
|
|
|
**Japanese MT-Bench** |
|
GPT-4による評価 (Nejumi Leaderboard Neo、gpt-4-0613、平均スコア算出においてスコア-1は除外) |
|
|
|
| | Tanuki-8B-dpo-v1.0 | Tanuki-8x8B-dpo-v1.0 | |
|
| ---- | ---- | ---- | |
|
| 平均スコア | 7.24 | 7.96 | |
|
| coding | 5.4 | 6.75 | |
|
| extraction | 6.65 | 6.90| |
|
| humanities | 9.1 | 9.3 | |
|
| math | 3.9 | 5.75 | |
|
| reasoning | 5.75 | 7.35 | |
|
| roleplay | 8.75 | 8.95 | |
|
| stem | 9.35 | 9.40 | |
|
| writing | 9.05 | 8.85 | |
|
|
|
GPT-4oによる評価 (Nejumi Leaderboard 3) |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/TMl4VIoTyUzzdbj5PdVEi.png) |
|
|
|
**人手評価** |
|
Chatbot Arena的なシステムを使った人手によるブラインドテストの結果 |
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/RzPOQfETYD9_AFEjVkwCX.png) |
|
|
|
|