Llama2-7B 归档 - 每时AI

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3% 邱锡鹏团队联合出品

2025年2月24日16时作者量子位

研究人员提出MHA2MLA方法，通过微调预训练模型减少KV缓存大小90%，保持甚至提升性能。该技术利用低秩联合压缩键值技术和分组查询注意力策略，降低推理成本的同时维持精度。