量子化

#1
by tomgm - opened

こんにちは
以下のように量子化を試したのですが、自分の環境ではエラーが出てしまいます。
py convert-hf-to-gguf.py --outtype f16 F:/models/c4ai-command-r-v01-japanese-instruct
最初はconfiguration_cohere.py等のpyファイルが足りないようなメッセージが出たので、元のcommand-rからコピーしたところ、
trust_remote_code=Trueにせよとのエラーがでたので、pyを修正
元のcommand-rはこれで量子化でき、Q6_kの推論まで問題なくできたのですが、
こちらのモデルでは
ValueError: Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.
のエラーがでてしまい、
pip install transformers[sentencepiece]等も試したのですがエラー解消できませんでした。
自分の環境では無理かもしれないので、
できましたら、Q6_kの量子化をお願いしたく思います。

@tomgm
私の環境では問題なく変換できたので、Q6_KとQ4_K_Mをアップロード中です!必要そうであればImatrixを使ったものも後ほど用意しようかと思います。

@tomgm
こちらにアップロードしましたので、お試しください。
https://huggingface.co/Aratako/c4ai-command-r-v01-japanese-instruct-GGUF

ありがとうございます!
日本語表現が上がっていい感じですね。

tomgm changed discussion status to closed

@tomgm
すみません、imatrixの方でも動作問題なかったでしょうか?
私の手元の環境でテストしたところimatrixで量子化したものの出力がかなり崩壊していたのですが…。

@Aratako
AT01.jpg
少し変な回答になりますが、崩壊までは行ってない気がします。(IQ3_XXSで試しました。koboldは自前ビルドしたものを使いました)
ちなみに、あれからtranceformerをupdateしたら、量子化はできるようになりました。
しかし、imatrixがcompute_imatrix: tokenizing the inputの所で止まってしまい、これの原因がまだわかっていません。

あ、もしかしたら、再アップされたのかな?
確認が遅れてしまいました(^^;

@tomgm
確認ありがとうございます!再アップはしていますが、中身は以前と変わっていません。
私の方でも色々と試しましたが、どうやらプロンプトテンプレートにかなり敏感なようで、公式のフォーマット(<|START_OF_TURN_TOKEN|>などのスペシャルトークン)をちゃんと設定して試したところある程度問題なく動作するようになりました。
適当なプロンプトフォーマットを使うと続きを生成しがちになるようです。

Sign up or log in to comment