OpenMOSE
/

RWKV-x060-Jpn-6B

Model card Files Files and versions Community

RWKV-x060-Jpn-6B / README.md

OpenMOSE's picture

Update README.md

41d9eee verified 6 months ago

|

history blame contribute delete

1.42 kB

	---
	license: apache-2.0
	---
	# RWKV x060 6B JPN モデルカード

	## モデル概要
	- モデル名: RWKV x060 6B JPN
	- アーキテクチャ: RWKV（Receptance Weighted Key Value）
	- 元モデル: x060 7B JPN
	- 言語: 日本語

	## モデル仕様
	- パラメータ数: 約6B（60億）
	- レイヤー数: 25層（元モデルの32層から7層プルーニング）
	- 次元数: 4096次元

	## 蒸留プロセス
	- 蒸留データセット: 30,000ペアの蒸留データ
	- 学習方法: 元モデルのLogitsからTop-k=100のみを採用
	- 学習Epoch: 2
	- トレーニング手法: 可変LoRA（Low-Rank Adaptation）

	## モデル構造詳細
	- Embedding層: 凍結
	- 出力層（Head）: 凍結
	- Layer 0: フルパラメータ学習
	- Layer 1-24: LoRA（Rank=128）による学習

	## 特徴
	- x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
	- プルーニングとLORAを組み合わせた効率的な学習手法を採用
	- 日本語タスクに特化した調整

	## 使用上の注意
	- 日本語タスクに最適化されているため、他言語での性能は保証されません
	- モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします

	## ライセンス
	[Apache2.0]

	## 引用
	[RWKV x060 7B JPN]

	## 連絡先
	[OpenMOSE]