--- license: apache-2.0 --- # RWKV-x060-7B-Rosebleu Model Card ## モデル概要 - **モデル名**: RWKV-x060-7B-Rosebleu - **アーキテクチャ**: RWKV x060 "Finch" - **ベースモデル**: RWKV x060-7B JPN - **モデル構造**: 32 Layer, 4096 Dimension - **パラメータ数**: 7.6B (76億) - **ファインチューニング手法**: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化 - **LoRAマージ手法**:非量子化モデルに対し、LoRAをマージ - **学習コンテキストサイズ**: 可変ウインドウ最大131k(平均40k) ## 特徴 - RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト - SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。 - キャラクターごとの会話履歴を考慮した学習 - ロールプレイチャット学習を重点的に行ったモデルになります。 ## データセット - 使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット - データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成 - Topk100のLogitsデータセットを作成(70GBほど) - 処理後のトータルデータセット数300000Pair ## 使用方法 - システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能? - システムプロンプトなしの場合は素モデルに近い挙動をします - 推奨推論パラメータはTemperature=1.0 top-p=0.5です ## 技術的詳細 - 自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整 - ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御 - LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85 - Train Epoch 2 ## 制限事項と注意点 - 実験的なモデルであり、性能や挙動が安定しない可能性があります。 - キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。 ## ライセンスと謝辞 - データセット:(c)Rosebleu様 - https://gitlab.com/open_contents_datasets/Rosebleu - ライセンスはデータセットと同じです。