感谢开源,救了没有H显卡人的命,有个小问题,这个是W8A16的还是W8A8的呢
W8A8,weight的量化粒度遵循了原本FP8的block-wise,每128x128为一个block
· Sign up or log in to comment