详解vLLM和SGLang awq dequantize kernel的魔法 2025年3月17日8时 作者 GiantPandaCV kernel触发条件为当输入x的shape的tokens<256时,这个时候会先把int4的awq权
4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级 2024年12月26日20时 作者 机器之心 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000
大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」 2024年11月19日13时 作者 每时AI 机器之心报道 编辑:蛋酱、佳琪 去掉一个「超权重」的影响,比去掉其他 7000 个离群值权重加起来还