Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,43 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
---
|
4 |
+
# RWKV-x060-7B-Rosebleu Model Card
|
5 |
+
|
6 |
+
## モデル概要
|
7 |
+
- **モデル名**: RWKV-x060-7B-Rosebleu
|
8 |
+
- **アーキテクチャ**: RWKV x060 "Finch"
|
9 |
+
- **ベースモデル**: RWKV x060-7B JPN
|
10 |
+
- **モデル構造**: 32 Layer, 4096 Dimension
|
11 |
+
- **パラメータ数**: 7.6B (76億)
|
12 |
+
- **ファインチューニング手法**: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化
|
13 |
+
- **LoRAマージ手法**:非量子化モデルに対し、LoRAをマージ
|
14 |
+
- **学習コンテキストサイズ**: 可変ウインドウ最大131k(平均40k)
|
15 |
+
|
16 |
+
## 特徴
|
17 |
+
- RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト
|
18 |
+
- SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。
|
19 |
+
- キャラクターごとの会話履歴を考慮した学習
|
20 |
+
- ロールプレイチャット学習を重点的に行ったモデルになります。
|
21 |
+
|
22 |
+
## データセット
|
23 |
+
- 使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット
|
24 |
+
- データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成
|
25 |
+
|
26 |
+
## 使用方法
|
27 |
+
- システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能?
|
28 |
+
- システムプロンプトなしの場合は素モデルに近い挙動をします
|
29 |
+
- 推奨推論パラメータはTemperature=1.0 top-p=0.5です
|
30 |
+
|
31 |
+
## 技術的詳細
|
32 |
+
- 自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整
|
33 |
+
- ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御
|
34 |
+
- LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85
|
35 |
+
|
36 |
+
## 制限事項と注意点
|
37 |
+
- 実験的なモデルであり、性能や挙動が安定しない可能性があります。
|
38 |
+
- キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。
|
39 |
+
|
40 |
+
## ライセンスと謝辞
|
41 |
+
- データセット:(c)Rosebleu様
|
42 |
+
- https://gitlab.com/open_contents_datasets/Rosebleu
|
43 |
+
- ライセンスはデータセットと同じです。
|