Linear-MoE:线性注意力遇上混合专家的开源实践
近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。
近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。
AIxiv专栏介绍及新模型MoM发布。MoM通过混合记忆机制实现大规模内存扩展,显著提升长序列建模能力,在in-context recall-intensive任务上超越Transformer。