RWKV-x060-Japanese-11.2B
RWKV Architecture "Finch" based 11.2B Parameters Model.
継続トレーニング中です。実験なので性能評価はしていません。
- "YORINOBU"
- Based on RWKV6-World v2.1 7b 53% Model, we have applied a layer expansion approach and tuned it as a 48-layer, 4096-dimensional model.
- I added 8 layers to the 40-layer model, froze layers 0 to 39, and continued pre-training layers 40 to 47, along with the Embedding and Head layers, using a Japanese corpus.
- Since it is an experimental approach, it may exhibit unpredictable behavior.
- RWKV6-World v2.1 7b 53% Modelをベースに、レイヤー拡張アプローチを適用し、48層4096次元モデルとしてチューニングしました。
- 40層モデルに8層を追加し、0から39レイヤーまでを凍結し、40から47、Emb、Head層を日本語コーパスで継続事前学習を行いました。
- 実験的アプローチなので、予測不可能な挙動をする可能性があります
Training
- using RWKV-LM-LISA Anarchy mode, Continuous Pre-traning
- https://github.com/OpenMOSE/RWKV-LM-LISA
- Single A6000 LISA 4layer training each step
2024 OpenMOSE
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.