RWKV x060 6B JPN モデルカード

モデル概要

  • モデル名: RWKV x060 6B JPN
  • アーキテクチャ: RWKV(Receptance Weighted Key Value)
  • 元モデル: x060 7B JPN
  • 言語: 日本語

モデル仕様

  • パラメータ数: 約6B(60億)
  • レイヤー数: 25層(元モデルの32層から7層プルーニング)
  • 次元数: 4096次元

蒸留プロセス

  • 蒸留データセット: 30,000ペアの蒸留データ
  • 学習方法: 元モデルのLogitsからTop-k=100のみを採用
  • 学習Epoch: 2
  • トレーニング手法: 可変LoRA(Low-Rank Adaptation)

モデル構造詳細

  • Embedding層: 凍結
  • 出力層(Head): 凍結
  • Layer 0: フルパラメータ学習
  • Layer 1-24: LoRA(Rank=128)による学習

特徴

  • x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
  • プルーニングとLORAを組み合わせた効率的な学習手法を採用
  • 日本語タスクに特化した調整

使用上の注意

  • 日本語タスクに最適化されているため、他言語での性能は保証されません
  • モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします

ライセンス

[Apache2.0]

引用

[RWKV x060 7B JPN]

連絡先

[OpenMOSE]

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.