MFA-Key-Reuse归档 - 每时AI

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

下午4时 2025/01/17 作者机器之心

研究提出多矩阵分解注意力（MFA）及其变体 MFA-Key-Reuse，大幅降低语言模型推理成本的同时实现性能提升。