上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了
AIxiv专栏介绍及新模型MoM发布。MoM通过混合记忆机制实现大规模内存扩展,显著提升长序列建模能力,在in-context recall-intensive任务上超越Transformer。
AIxiv专栏介绍及新模型MoM发布。MoM通过混合记忆机制实现大规模内存扩展,显著提升长序列建模能力,在in-context recall-intensive任务上超越Transformer。
阿里云发布Qwen2.5-Max大模型,在多个权威基准测试中表现出与全球顶级模型比肩的性能。该模型采用超大规模MoE架构,支持高达100万token的上下文窗口,并在低成本高性能方面具有潜力,引发市场对中国AI资产重估的讨论。
阿里云Qwen模型首次将上下文扩展至1M长度,实现了长文本任务的稳定超越GPT-4o-mini,并提升了推理速度7倍。该模型分为长上下文训练、长度外推和稀疏注意力机制三大步骤。