Meta发布Llama 4多模态MoE系列模型!全网专家点评

沉默已久的Meta,终于再次掀起AI界狂风,Llama 4系列模型官宣了!

这回不再是小打小闹,是对整个Llama系列的彻底重设计,不仅采用了最前沿的混合专家(MoE)架构,还原生支持多模态训练。

这次推出的模型包括三剑客:Llama 4 ScoutLlama 4 Maverick,以及仍在训练中的Llama 4 Behemoth

三款模型各具特色,表现堪称惊艳

Llama 4 Scout可不是吃素的,这款小型模型拥有17B激活参数16个专家,关键是支持超过1000万token的上下文窗口,而且轻量到能在单个GPU上运行。

单GPU就能跑,还能处理1000万token?

这是把「又快又好」写在脸上了啊!

再看Llama 4 Maverick

这位更是厉害,在LMArena上的聊天版本ELO评分高达1417,在多模态领域表现出色,成了Arena排行榜上的第二名,也是第四个突破1400分的组织

人家在图像理解上完全秒杀GPT-4o和Gemini 2.0 Flash,推理和编码能力也与DeepSeek v3相当,但激活参数不到后者的一半!

这性价比,真不是一般的高啊。

虽然Llama 4 Behemoth还在训练中,但已经在多个STEM基准测试中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

这是Meta迄今最强大的模型,怪不得叫「巨兽」啊!

技术创新拉满,长上下文处理能力飞跃

Llama 4系列模型在技术上也是亮点频出。

首先是采用了iRoPE架构(交错旋转位置嵌入),这让它能够支持惊人的1000万token上下文窗口

与传统的注意力机制不同,Llama 4还引入了分块注意力机制而非滑动窗口,以及缩放查询状态的技术,让Softmax在长上下文处理中表现更佳。

研究显示,这种注意力缩放技术让模型在处理超长文本时依然能保持高效,解决了随着上下文长度增加,Softmax概率分布变平的问题。

还不止这些,Llama 4还用上了FP8精度训练,在32K GPU上达到了390 TFLOPs/GPU的效率,以及MetaP技术自动调整超参数。

这种创新也带来了实打实的效果:Scout模型可以在不到3分钟的时间内,读取一个包含90万token的GitHub仓库并撰写指南!

多模态能力强大,轻松处理图像视频

Llama 4系列最大的突破之一就是原生支持多模态

它使用MetaCLIP作为视觉编码器进行早期融合,能同时理解文字和图像的关系。

预训练就支持最多48张图像,实测也能轻松处理8张图片的输入。

特别是Maverick模型,图像接地能力一流,能够将用户提示与相关视觉概念精准对齐,并将模型响应锚定到图像中的具体区域。

Maverick的多模态能力打破了此前开源模型的天花板,让人在体验上几乎感受不到与闭源模型的差距。

在各种图像理解、识别和推理任务上,它都表现出了非凡的能力。

训练策略独特,共同蒸馏效果显著

传统模型训练和Llama 4的差别也不小。Meta团队采用了轻量级SFT结合大规模强化学习的策略,显著提升了模型在推理和编码方面的能力。

训练过程分为**「中期训练」阶段,通过新训练配方提升核心能力,包括使用专门数据集扩展长上下文;以及后训练流程**:轻量级SFT > 在线RL > 轻量级DPO。

更厉害的是,他们还使用了新型蒸馏损失函数,动态加权软硬目标,让小模型也能继承大模型的优秀能力。

不少专家认为,这种训练策略是Llama 4能够在有限的参数量下实现如此强大能力的关键。

特别是在RL阶段,Meta团队还只选择了更难的提示进行强化,这使得模型在复杂任务上的表现更加出色。

合作伙伴众多,多平台已上线

Meta并没打算独享这次技术突破,而是与众多合作伙伴一起,让Llama 4惠及全球开发者。

Hugging Face、Together Compute、SnowflakeDB、Ollama、Databricks等平台都已上线Llama 4 Scout和Maverick模型。

Groq平台上,Llama 4 Scout和Maverick更是实现了无与伦比的速度

甚至在M3 Ultra上使用MLX,Llama 4 Maverick也能实现50 token/sec的生成速度

使用须知,许可有变化

值得注意的是,Meta为Llama 4制定了新的许可协议,与之前版本有些不同:

  • 月活跃用户超过7亿的公司必须向Meta申请特殊许可证

  • 必须在网站、界面、文档等显著位置显示「Built with Llama

  • 使用Llama材料创建的AI模型名称必须以「Llama」开头

  • 分发时必须包含特定的归属声明,放在「Notice」文本文件中

这些新的限制引发了一些讨论,有人认为这是Meta在为自己的品牌建立更强的认知,也有人担心这可能会影响模型的开放性。

但总体来看,Llama 4的许可协议仍然比大多数闭源模型要开放得多。

虽然比DeepSeek 还是差远了。

行业专家热烈反响,点评不断

Llama 4一经发布,立刻引发了AI圈内众多专家的讨论和点评。

Meta的Russ Salakhutdinov教授表示:

Llama 4原生支持多模态、采用专家混合技术,性能显著提升,效率无与伦比,所有模型均易于部署,适应不同使用场景。

Tanishq Mathew Abraham博士对Llama 4的内部结构做了进一步解读:

「Llama 4采用早期融合MetaCLIP作为视觉编码器,比Llama-3多10倍的多语言令牌,通过新训练配方进行『中期训练』以提升核心能力,并使用专门数据集扩展长上下文能力。」

lmarena.ai(前身为lmsys.org)在推特上分享了Llama 4 Maverick在Arena排行榜上的成绩:

「Meta的Llama 4 Maverick在Arena排行榜上跃居第二,成为第四个突破1400分的组织。作为开源模型名列第一,超越了DeepSeek,并在多个任务上并列第一。」

Maxime Labonne则透露:

「Llama 4 Maverick初印象显示,其在文本处理上的表现不及Deepseek R1,在双base64字符串解码测试中失败。不过聊天能力似乎更优,但与推理模型相比这并不意外。」

Jeremy Howard对Llama 4表达了喜忧参半的看法:

「感谢Llama 4作为开放权重的模型发布,但其庞大的MoE结构使得即使在量化后也难以在消费级GPU上运行。Mac设备因其大内存可能更适合运行Llama 4,特别是在MoE模型上,因为激活的参数较少。」

Ethan Mollick教授则指出:

「尽管Llama Behemoth是一款强大的开源模型,但其性能与Gemini 2.5相比仍有显著差距。目前,开源模型尚未达到闭源模型的先进水平。」

rohan anil展示了Llama 4 Maverick在多个类别中的优异表现:

「Meta 的 Llama 4 Maverick 在所有类别中都进入了前五名。特别是在高难度提示、编程、数学、创意写作、长查询和多轮对话等方面,获得了第一名。」

Matt Shumer分享了一个令人振奋的消息:

「Llama 4最重要的部分是,其最大版本Behemoth目前仍在训练中,发布时预计将超越GPT-4.5/Sonnet 3.7水平。虽然现在评价为GPT-4.5/Sonnet 3.7级别,但由于训练还在继续,发布时性能将更强。这对开源社区是一大胜利。」

TDM却表达了一些失望:

「Meta Llama 4的发布未能达到部分专家的期望。缺乏本地模型,被认为无法超越Gemma的密度。Scout 109B/17A模型在细粒度稀疏性方面表现不佳。虽然这些模型可能非常强大,但Meta的表现并未超出预期。」

wh注意到了Llama 4架构中的一个有趣细节:

「Llama 4在局部注意力块中采用了分块注意力机制而非滑动窗口,这一设计既有趣又略显奇怪。在局部注意力中,token索引8191和8192无法直接交互,它们交互的唯一方式是通过NoPE全局注意力层。」

xjdr提到了一个令人兴奋的可能性:

「通过适当的温度调优和大量的高带宽内存(HBM),L4 Maverick模型在当前形态下有望达到1亿参数。虽然1000万上下文长度听起来很疯狂,但这仅是Magic AI计划用真实大型语言模型尝试的上下文长度的十分之一。」

关于Llama 4的性能秘密,rohan anil提出了六点理论:

「Llama 4 Maverick的卓越表现可能归功于:交替密集/混合专家有助于泛化;密集共享确保不丢失任何令牌,MoE学习残差;MetaP进一步改善泛化;共蒸馏中的动态权重帮助避开较差的教学信号;更高的总参数与激活比率;以及训练设置、课程等因素。」

模型基础性能全面提升

Llama 4在各个评测中表现亮眼,尤其是Maverick,在Hard PromptsCodingMathCreative WritingLonger QueryMulti-Turn等多个类别中都能排进前五。

在LMArena上,Llama 4 Maverick不仅成为开源模型中的第一名,超越了DeepSeek,还在多个关键指标上与封闭源模型平分秋色。

与Llama 3 405B相比,Maverick的评分从1268跃升至1417,进步明显。

在性能与成本比上,Llama 4 Maverick更是达到了行业领先水平,每百万tokens的服务成本估计仅在**0.190.49**之间。

更厉害的是,Llama 4系列模型的实用性也得到了显著提升。

据AI at Meta介绍,Llama 4支持12种语言的多语言写作任务,开发者还可以根据Llama 4社区许可证和可接受使用政策,为这12种语言之外的语言微调Llama 4模型。

Llama 4的多语言能力也远超前代。

Vaibhav Srivastav指出,Llama 4 Maverick(402B)和Scout(109B)模型原生支持多语言,联合预训练文本、图像和视频达到30T+ tokens,是Llama 3的两倍。

实用工具链已经就绪

为了方便开发者快速上手Llama 4,Meta和合作伙伴们也准备了丰富的工具链。

Red Hat AI宣布Llama 4 Herd已获得vLLM项目的Day 0支持,开发者可以立即使用这些模型进行推理。

Sanyam Bhutani也分享了详细的入门指南,演示了如何利用Llama 4处理长上下文任务。

Together AI作为Meta的发布合作伙伴,推出了支持多模态输入的Llama 4 Maverick和Llama 4 Scout。

这两款模型在12种语言的多语言图像/文本理解、创意写作和多文档分析方面表现出色。

GroqCloud™也在第一时间上线了Meta的Llama 4 Scout和Maverick模型,提供了即时的访问、快速的性能和最低的成本。

FireworksAI与Meta合作,让Llama 4模型支持高达1000万tokens的长上下文处理,创下了开源模型的新纪录。

更多惊喜在路上

Meta表示,Llama 4系列还将继续推出更多模型。

目前披露的Llama 4 Reasoning将于下月公布更多消息,而Llama 4 Behemoth的完整版本预计将在训练完成后推出。

据不完全统计,Behemoth拥有288B激活参数16个专家和高达2T的总参数,来自这个「巨兽」的蒸馏也让Scout和Maverick模型受益匪浅。

更令人兴奋的是,据Ahmad Al-Dahle透露,Meta正在训练一个拥有2T参数的模型,这将是目前最大且性能最佳的基模型,而且该公司计划不久后将其开源。

Aston Zhang也分享了关于Llama 4的更多细节,称其实现了行业领先的10M+多模态上下文长度,相当于20多小时视频的处理能力。

这一突破得益于iRoPE架构的开发,为AGI的长期无限上下文目标迈出了重要一步。

Baseten则宣布,Scout模型在8xH100上可服务百万token,Maverick模型取代了Llama 3.1 405B,在8xH100 FP8上可服务约一半上下文,而完整上下文及更快速度需要H200或B200支持。

TuringPost总结道,Llama 4系列模型凭借其采用MoE架构以提高效率、支持10M token的超长上下文处理以及多模态能力,已经成为了AI领域的重要里程碑。

看来,Meta在开源AI领域的长期承诺并非虚言,这次的Llama 4系列真的展现了其在人工智能领域的雄心与实力!

不过,不论未来Llama系列会带来多少惊喜,

最期待的仍然是——

DeepSeek R2 能够全线狙击LlaMa 的过去、现在和未来!

(文:AGI Hunt)

欢迎分享

发表评论