上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025 上午8时 2025/04/29 作者 机器之心 本文提出MILLION,一种基于乘积量化键值缓存压缩的方法,显著提高模型性能和系统效率。