最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升 上午8时 2025/05/24 作者 AIGC开放社区 COMET框架在ASPLOS 2025上发布,实现了权重、激活和KV缓存全4比特压缩下的高性能推理,仅造成0.32的困惑度微增,并实现端到端推理加速2.02倍。
MoE之年的总结和MoE 推理优化的一些认识 下午7时 2025/02/04 作者 GiantPandaCV 0x0. 前言 祝大家新年快乐! 希望大家天天开心,学业有成,工作顺利。 我是在2025农历新年的大