机器之心PRO · 会员通讯 Week 19
— 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 —
1. 早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
什么是Native多模态模型?相较目前流行的「晚融合」方案,「早融合」的Native多模态模型的训练过程有何不同?苹果公司近期发布的「NNM」技术报告中,有哪些反直觉的新发现?近期业内有哪些获得较好表现的多模态模型?「早融合」是否正在成为主流?…
Dario Amodei 为什么说「AI 的未来是 Agents」?数据的「Scaling Law」依然乐观?围绕 Agents 进行数据创新?MCP和A2A范式下,企业怎样维护数据系统安全?Agents产品迭代的关键缺口如何突破?人类如何把握 AI 技术的双刃剑?…

要事解读① 早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
相较晚融合的「拼多多」多模态模型,早融合架构的Native多模态模型的训练过程有何不同?[1-1]
1、在多模态模型(MM)的发展中,早期的工作大多采用模块化架构,将视觉编码和语言解码分开处理,近期则有更多工作尝试视觉感知和多模态理解直接集成到一个单一的模型中。
① Gemini是较早采用联合文本、图像、语音和视频进行训练的模态模型。在2023年12月Gemini 1.0发布时, Sundar Pichai 将其称为「新 AI 品种」 ,即原生多模态模型(Native Multimodal)。
② 2024年发布的GPT-4o同样采用端到端的模型来统一处理各个模态的数据。该模型发布时被描述为OpenAI第一个原生全量多模态模型。
2、苹果的研究者在近期的工作探究了这种从头开始在多模态数据上训练的原生多模态模型(NMMs),比较了「早融合」和「晚融合」两种方法的Scaling特性,同时探究了较为流行的晚融合方法是否具备内在优势。
① 由于晚融合的方法对不同模态数据的异质性有更高容忍度,因此成为大部分工作的选择。但这种方式可能会引入偏差,阻碍模型充分利用跨模态依赖关系。
3、早融合或晚融合代表了两种不同的设计理念。前者从最初就启用多模态交互,几乎不使用特定于模态的参数,后者则将多模态数据的处理延迟到更深层,通常在各个模态通过独立的组件进行单独处理后再进行融合。
4、早融合(Early-fusion)方法主张在模型训练的早期阶段就将不同模态的数据(如图像和文本)合并处理。
① 这种方式通过单个Transformer模型直接处理原始的多模态输入,例如将图像分割成patch并线性投影到与文本标记相同的维度,使模型能够从一开始就学习不同模态之间的交互关系。
② 这种方法的优势在于能够充分利用多模态数据的协同效应,使模型在训练初期就对不同模态之间的关联有深刻的理解。
5、晚融合(Late-fusion)方法则采取了不同的策略,它将不同模态的数据首先通过各自的编码器进行独立处理,然后再在模型的较深层进行整合。
① 这种设计通常依赖于预训练的单模态模型,如将预训练的视觉编码器连接到大型语言模型(LLM)的输入层。
② 晚融合的优势在于能够充分利用单模态模型已经学习到的丰富特征。
早融合 v.s. 晚融合,苹果公司的研究有哪些反直觉的新发现?[1-1]
(文:机器之心)