gptq量化相关代码

#43

by BigMaoGoGoGo - opened Apr 14, 2023

base: refs/heads/main

←

from: refs/pr/43

Discussion Files changed

+359

-8

This PR is in draft mode

BigMaoGoGoGo

Apr 14, 2023

No description provided.

add gptq quantization8fe54fae

fix gpu cacheac792e31

BigMaoGoGoGo changed pull request title from [WIP]gptq量化相关代码 to gptq量化相关代码 Apr 17, 2023

BigMaoGoGoGo

Apr 17, 2023

显存的问题已经解决了，现在4bit的模型量化后大概5G多的显存占用

frankxyy

Apr 26, 2023

你好，看原始论文，gptq感觉对小参数量模型量化后准确率掉的有点多啊是能接受的程度吗

BigMaoGoGoGo

Apr 26, 2023

比直接用min/max的情况要好一点，对话任务我这边还没有数据集能够衡量指标，只是测了一个prompt感觉精度还可以

frankxyy

Apr 26, 2023

•

edited Apr 26, 2023

@BigMaoGoGoGo 你好，想问下你了解chatglm自带的量化吗？我看它代码里只是对weight进行了量化，计算前再转fp16，但我这边跑起来效果不错的，比llm.int8()快很多。只是不知道有没有工具类直接搞定呢？这样不需要手动加那么多自定义的代码了。

BigMaoGoGoGo

Apr 28, 2023

作者的代码里有weight-only量化的kernel，你应该可以直接用吧

SHAYINDAODSD

Apr 28, 2023

请问这个gptq量化如何使用，我没看到如何生成 gptq 量化后模型的代码，这个是不是应该先生成gptq 量化的模型吗，谢谢

SHAYINDAODSD

May 4, 2023

可以把 chatglm-6b 生成量化模型的代码发一下吗，谢谢

geolvr

May 4, 2023

按照Files changed中的新增和改动，调整了原版代码，可以运行。但是int4量化后的模型推理速度依旧很慢，跟原版量化后的推理速度差不多，都比没量化前（float16）的慢很多。

BigMaoGoGoGo

May 8, 2023

按照Files changed中的新增和改动，调整了原版代码，可以运行。但是int4量化后的模型推理速度依旧很慢，跟原版量化后的推理速度差不多，都比没量化前（float16）的慢很多。

目前这份代码里，gptq算法只是用来提升模型的精度的，量化的算子还是和原来一样，因此速度不会有特别的提升

applepieiris

Aug 28, 2023

按照Files changed中的新增和改动，调整了原版代码，可以运行。但是int4量化后的模型推理速度依旧很慢，跟原版量化后的推理速度差不多，都比没量化前（float16）的慢很多。

目前这份代码里，gptq算法只是用来提升模型的精度的，量化的算子还是和原来一样，因此速度不会有特别的提升

这可能有违gptq的初衷，毕竟gptq的原文paper里跟llm.int8()对比说明优势时，表达的重点是runtime的减少（相比于llm.int8()只是显存占用的减少）。

tiantian7777

Dec 12, 2023

This comment has been hidden

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.