更新情報 日本語機能とinstructベクトルのバランス調整したver.2をアップロードしました
Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2

モデル概要

Swallow-MX-8x7b-NVE-v0.1に対し、

Mixtral-8x7B-Instruct-v0.1
Mixtral-8x7B-v0.1の差分をマージしたモデルです。

Swallow-MX-8x7b-NVE-v0.1 + Mixtral-8x7B-Instruct-v0.1 - Mixtral-8x7B-v0.1

Swallow-MX-8x7b-NVE-v0.1は、コンテクスト長4096までの日本語継続学習モデルですが、
英語モデルのInstructベクトルをマージすることで、流暢な日本語機能を維持してコンテクスト長を32Kまで拡大、Instruct機能を大幅アップしました。

注目すべき点
 1、4096token以上の部分は日本語継続事前学習していないが、今回の英語モデルの差分マージのみで日本語機能が32Kまで維持出来ている点
 2、英語モデルのInstruct機能が、差分マージのみで日本語モデルに簡単に移行できる点

詳細は以下文献を参照ください。

参考文献
LLM差分マージしてみた
Chat Vector
Chat Vectorを使って日本語LLMをチャットモデルに改造する
jovyan/Swallow-MS-7b-v0.1-ChatVector
kousw/stablelm-gamma-7b-chatvector

Downloads last month
12
Safetensors
Model size
46.7B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct

Quantizations
1 model