最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升 上午8时 2025/05/24 作者 AIGC开放社区 COMET框架在ASPLOS 2025上发布,实现了权重、激活和KV缓存全4比特压缩下的高性能推理,仅造成0.32的困惑度微增,并实现端到端推理加速2.02倍。