Linear-MoE:线性注意力遇上混合专家的开源实践

近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。

MiniMax-01 开源即精品:破解超长文本处理难题!

MiniMax-01系列模型开源,支持400W token长文本处理。该系列通过线性注意力机制大幅降低计算成本和提高效率。MiniMax-Text-01在文本任务与多模态任务上表现优异,展示了强大的超长文本理解和处理能力。