Update README.md
Browse files
README.md
CHANGED
@@ -10,8 +10,9 @@ base_model:
|
|
10 |
---
|
11 |
|
12 |
## 概要
|
13 |
-
このモデルはDeepSeek社のR1蒸留モデルである
|
14 |
|
|
|
15 |
## How to use
|
16 |
```python
|
17 |
from transformers import AutoModelForCausalLM, AutoTokenizer
|
@@ -31,7 +32,7 @@ tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
|
|
31 |
|
32 |
prompt = "9.9と9.11はどちらのほうが大きいですか?"
|
33 |
messages = [
|
34 |
-
{"role": "system", "content": "
|
35 |
{"role": "user", "content": prompt}
|
36 |
]
|
37 |
text = tokenizer.apply_chat_template(
|
@@ -54,7 +55,9 @@ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
|
54 |
print(response)
|
55 |
```
|
56 |
|
57 |
-
##
|
58 |
-
|
|
|
59 |
|
60 |
-
|
|
|
|
10 |
---
|
11 |
|
12 |
## 概要
|
13 |
+
このモデルはDeepSeek社のR1蒸留モデルである[deepseek-ai/DeepSeek-R1-Distill-Qwen-32B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)を日本語ファインチューニングしたcyber agent社の[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)に対してAbeja社の[abeja/ABEJA-Qwen2.5-32b-Japanese-v0.1](https://huggingface.co/abeja/ABEJA-Qwen2.5-32b-Japanese-v0.1)をChatVectorを用いて加えたものに、独自の日本語強化ファインチューニングをしたモデルとなります。
|
14 |
|
15 |
+
このモデルは **長考モデル**ではありません。
|
16 |
## How to use
|
17 |
```python
|
18 |
from transformers import AutoModelForCausalLM, AutoTokenizer
|
|
|
32 |
|
33 |
prompt = "9.9と9.11はどちらのほうが大きいですか?"
|
34 |
messages = [
|
35 |
+
{"role": "system", "content": "あなたは優秀な日本語アシスタントです。問題解決をするために考えた上で回答を行ってください。"},
|
36 |
{"role": "user", "content": prompt}
|
37 |
]
|
38 |
text = tokenizer.apply_chat_template(
|
|
|
55 |
print(response)
|
56 |
```
|
57 |
|
58 |
+
## ベンチマーク
|
59 |
+
このモデルはELYZA-task100で4.7をマークしました。(評価にはGroqのllama3-70B-8192を使用しました。)
|
60 |
+
|
61 |
|
62 |
+
## 謝辞
|
63 |
+
モデルの作成者であるDeepSeekチーム, Qwenチーム, Abejaチーム, CyberAgentチーム、評価モデルの作成者であるmeta社とAPIを公開しているGroq社、計算資源を貸していただいたVOLTMIND社に感謝を申し上げます。
|