INT4 归档 - 每时AI

详解vLLM和SGLang awq dequantize kernel的魔法

2025年3月17日8时作者 GiantPandaCV

kernel触发条件为当输入x的shape的tokens<256时，这个时候会先把int4的awq权

2024年12月26日20时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2024年11月19日13时作者每时AI

机器之心报道
编辑：蛋酱、佳琪
去掉一个「超权重」的影响，比去掉其他 7000 个离群值权重加起来还