解构多模态,GPT-4o 的自回归路线真的走通了吗?

机器之心PRO · 会员通讯 Week 14

— 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 —

1. 解构多模态,GPT-4o 的自回归路线真的走通了吗

GPT-4o 的最新图像生成功能为什么备受关注?与其他多模态模型相比强在哪?为什么说多模态模型的本质难题在于不同模态间的对齐和融合?目前业内存在哪些技术方向?关于 GPT-4o 的自回归技术路线有哪些猜测?基于自回归的技术路线能解决传统多模态生成的哪些问题?…

2. 高估值对 AI 公司没有好处?

Perplexity 要做操作系统?知名风投如何看待当前 AI 市场的竞争?为什么高估值对 AI 公司没有好处?当下资本看好哪些 AI 应用方向?AI 在未来 15 年可能进入乌托邦状态?…


…本期完整版通讯含 2 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 8 项,国外方面 7 项。
本期通讯总计 21228 字,可免费试读至 11% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  解构多模态,GPT-4o 的自回归路线真的走通了吗?

日期:4 月 2 日

事件:GPT-4o 近期新推出的图像生成功能因生成图像效果优异而引发广泛关注,针对于 GPT-4o 的图像生成功能的技术细节,在社交平台上出现了诸多猜测。

GPT-4o 的最新图像生成功能强在哪?打开了多模态模型的新思路?

1. 近期,GPT-4o 新推出的图像生成功能因能生成吉卜力风格漫画的图像而破圈。根据 OpenAI 官方博客,GPT-4o 图像生成功能在精确呈现文本、精准遵循提示以及调用其内置的知识库和对话上下文方面表现出色。相比于其他的多模态模型,GPT-4o 在保证主体一致性以及指令遵循方面效果更佳。[1-1]

2. 据介绍,OpenAI 基于在线图像和文本对模型进行了训练,这不仅让模型学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合后训练,最终的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。

3. 同样,针对于 GPT-4o 的图像生成功能的技术细节,在社交平台上出现了诸多的猜测,例如推测采用了「自回归生成」的技术路径等。也有文章指出,GPT-4o 的图像生成能力大幅提升的关键在于提升了」文本-图像」模态对齐的能力。[1-2]

多模态模型变得更强,关键是什么?目前业内都是怎么做的?[1-3] 

1. 在多模态大模型的预训练中,核心挑战主要源自异构模态间在数据分布、时序动态与语义抽象层面的本质差异,如何对齐处理图像、视频、声音等不同模态的数据是一大难题。

2. 多模态大模型的通用架构一般可以分解为 5 个组件,模态编码器、输入映射器、LLM 骨干、输出映射器和模态生成器。

① 模态编码器负责对来自各种模态的输入进行编码,然后输入映射器将其他模态的编码特征与文本特征空间对齐,LLM 作为骨干,执行语义理解和推理,以上涉及到多模态理解的部分;

② 输出映射器将生成模型与 LLM 的输出指令对齐,通过多模态指令调整(Instruction Tuning),模型将系统指令/文本查询与输入多模态上下文相关联;最后是模态生成器,负责在特定模态生成输出。

3. 其中,模态对齐和模态融合是关键的两个部分。跨模态对齐是将不同模态的数据(例如图像、文本、音频等)在特征、语义或表示层面上能够达到匹配与对应。

4. 对齐主要分为显式和隐式两种类型,显式对齐是直接测量不同模态之间的关系,通常涉及使用相似性矩阵直接测量相似性,而隐式对齐则是不直接对不同模态的数据进行对齐,而是通过学习一个共享的潜在空间来改善主要任务的性能,通常是翻译或预测等任务的中间步骤。[1-4]

5. 隐式对齐包括基于图模型的对齐和基于神经网络的对齐两种。[1-4]

① 基于图模型的对齐是指通过将文本、图像、信号等多模态数据表示为图结构(节点为数据元素,边为元素间语义、空间或时间关系),有效建模跨模态的复杂隐含关联,来解决多模态信号间非直接对应的对齐。该种方法的核心在于灵活捕捉非结构化数据的多样化关联,同时通过显式的节点与边关系提升模型可解释性。

② 基于图模型的对齐方法通常在少样本模仿学习、手语翻译、情感分析、具身 AI 场景推理等任务中常用,例如通过知识图谱整合文本与视觉信息以增强决策能力,或利用场景图的空间关系改善图像字幕生成与视觉问答的准确性。但该种方法由于图结构的动态性、稀疏性及不规则连接特性会导致出现高计算复杂度与内存消耗大的情况。

③ 基于神经网络的对齐是隐式对齐的主要方法,通过深度学习模型自动学习图像、文本、音频等多模态数据之间潜在语义关联。其核心思想是让模型在训练过程中自主捕捉不同模态间的内在联系,例如利用注意力机制动态聚焦源数据的关键子结构(如图像的局部区域或句子的特定词汇),从而在翻译、生成等任务中实现跨模态语义映射。

④ 交叉注意力对齐是基于注意力机制对齐的其中一种。例如,Google DeepMind 在 2022 年推出的视觉语言模型 Flamingo 即采用了交叉注意力对齐的方式,旨在通过少样本学习来实现多模态任务的快速适应。

④ Flamingo 架构的核心亮点在于创新性地引入了交叉注意力机制,促进视觉与文本数据的动态交互。在该框架下,视觉输入经视觉编码器处理后生成一系列视觉标记,随后与文本标记交替排列,构成统一的输入序列。在模型的 Transformer 解码器中,交叉注意力层使每个文本标记能够有针对性地聚焦相关视觉标记,进而实现文本与视觉模态的有效对齐。[1-5]

6. 在模态对齐之后,模态融合是将对齐后的多模态信息整合到统一预测中,利用每个模态的优势来提高整体模型性能。[1-6]

7. 来自 腾讯 AI Lab 的论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》总结了 26 个主流模型的模态融合策略,主要将融合策略分为早期融合(特征拼接)、中期融合(跨模态注意力机制)和晚期融合(决策层交互)几类。早期融合适合简单任务,中期融合适合需要捕捉复杂关系的任务,而晚期融合则适合需要精细决策的任务。

① 早期融合策略是通过将不同模态的特征拼接在一起,形成一个统一的特征向量,然后输入到模型中进行处理。例如,由 Salesforce 推出的 视觉-语言模型 BLIP-2 通过特征拼接将图像特征和文本特征结合,使用轻量级的 Q-Former 桥接模态差距。[1-7]

② 中期融合策略是通过跨模态注意力机制在特征提取和处理阶段进行模态间的交互,能够更好地捕捉模态间的复杂关系。

③ 晚期融合策略则是在决策层进行模态间的交互,通常通过多任务学习或条件生成的方式实现,能够在决策阶段充分利用模态间的互补信息。

关于 GPT-4o 的自回归技术路线有哪些猜测?基于自回归的技术路线能解决传统多模态生成的哪些问题?

(文:机器之心)

欢迎分享

发表评论