阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增 下午4时 2025/01/17 作者 机器之心 研究提出多矩阵分解注意力(MFA)及其变体 MFA-Key-Reuse,大幅降低语言模型推理成本的同时实现性能提升。