DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3% 邱锡鹏团队联合出品 下午4时 2025/02/24 作者 量子位 研究人员提出MHA2MLA方法,通过微调预训练模型减少KV缓存大小90%,保持甚至提升性能。该技术利用低秩联合压缩键值技术和分组查询注意力策略,降低推理成本的同时维持精度。