机器之心PRO · 会员通讯 Week 23
— 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 —
1. 挑战 next token prediction,Diffusion LLM 够格吗?低成本下的高性能模型,是悖论还是可能?为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪些潜在优势?兑现 dLLM 的潜力还需解决什么问题?…
Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与技能重塑?…

要事解读① 挑战 next token prediction,Diffusion LLM 够格吗??
引言:DeepMind 在 Google I/O 2025 开发者大会展示了谷歌 DeepMind 在 AI 模型、工具、服务、应用的多项成果。但在大会半个月后,其展示的 Gemini Diffusion 开始引起社区热议,进而促进了业界开始关注这类基于扩散架构的语言模型所具备的潜力。
「或许是被忽视的重大突破」,Diffusion LLM 干掉自回归模型的底气是什么?
1、由于 Google I/O 2025 展示了 Gemini 2.5 Pro、Gemini 2.5 Flash、编程智能体 Jules 和视频生成模型 Veo 3 等一系列成果,导致 Gemini Diffusion 在最初颇为低调,在近 2 周后才引起关注,被社区称为「被忽略的重大突破」。[1-1] [1-2]
2、Gemini Diffusion 在 Demo 中展示了较高的生成效率,但真正引起热议的特征在于,该模型采用了在图像和视频生成领域更为流行的扩散架构进行文本生成,与其他专注于扩大上下文窗口或提升现有自回归模型工作差别鲜明。
① Gemini Diffusion 的文本生成平均采样速度在排除额外开销后可达 1479 TPS,在编码任务中甚至能达到 2000 TPS,在性能表现基本旗鼓相当的前提下,比 Gemini 2.0 Flash-Lite 快 4-5 倍。
② 由于扩散架构通过迭代去噪实现的并行生成机制与当前流行的自回归架构有着明显差异,Gemini Diffusion 在后续报道和话题中被描述为新兴范式的崛起。[1-3]
3、与自回归(AR)架构预测下一个 Token 的机制不同,Gemini Diffusion 的扩散架构采用去噪过程来生成文本,本质上是一种纠错机制,其从从噪声或掩码输入开始,通过迭代精炼并行地逐步完善整个输出 。[1-5]
① 扩散架构这种「从粗到细」的生成方法是其并行处理能力的关键,模型通过复杂的噪声/去噪方案进行学习,其中随机子集的 token 以不同比例进行掩码,使其能够处理从微小损坏到从头开始的完整生成。
4、AI 社区中有分析强调了谷歌基于 Gemini Diffusion 探索生成式 AI 新方法的理念。但让该模型,或是 Gemini Diffusion 所代表的 Diffusion LLM 有底气被称为「Game Changer」的原因在于这种并行高效的机制在 AI 能源消耗制约下的潜力。[1-4] [1-5]
① IBM 的研究工程师 Benjamin Hoover 在 2025 年 3 月的一篇文章中指出,扩散模型相较于类似 GPT 的 AR 模型通常效率更好,因为它能够并行优化整个序列,能够明显减少计算开销。
② 该文章强调了大模型耗电巨大,业界长期认为利用连续电信号而非二进制运算来处理信息的「模拟计算」有望解决 AI 能源问题的潜在方案。而从长远看,基于扩散的 AI 系统有望在模拟硬件上运行,从而大幅降低能源成本。
5、Gemini Diffusion 的成果让 AI 社区开始关注 Diffusion LLM 的路线。虽然部分报道描述该范式为谷歌带来的「首个」突破,但此前学界和工业界均在该路线有过探索和相关成果。
① 此前,斯坦福大学 2022 年提出的 Diffusion-LM 在细粒度的复杂生成控制方面取得了重要进步;上海 AI 实验室提同年出了首个专为 Seq2Seq 任务设计的扩散模型 DiffuSeq,复旦大学结合扩散过程与 BERT 模型相结合提出了 DiffusionBERT。[1-6]
② Diffusion LLM 近期的代表性成果则有蚂蚁和人大团队 2025 年 2 月发布的 LLaDA 系列,以及 Inception Labs 同期发布的基于扩散的 Coding LLM「Mercury 」。
自回归建模方式并非大模型的底层逻辑,Diffusion 也可被视作无损数据压缩器?
谷歌 Gemini Diffusion 尚未正式公开。此前,在 2023 年有综述梳理了扩散模型在 NLP 领域中的应用效果,近期的 LLaDa 系列是则是 Diffusion LLM 工作中较为成体系的研究工作。
1、扩散模型虽然流行于视觉生成领域,但业界同样在探索该技术文本生成任务中的潜力。明尼苏达大学的研究者曾通过综述系统梳理了扩散模型在 NLP 中的应用效果,涵盖文本生成、情感分析和机器翻译等任务类型。[1-7]
① 该综述于 2023 年上传 arxiv,将扩散模型在 NLP 中的应用分为离散和嵌入两类。前者通过在离散空间中直接对文本进行建模,而嵌入扩散模型则将离散文本映射到连续空间中进行处理。
② 该工作总结了扩散模型的多项优势,如并行生成的机制可同时生成所有 token,对文本生成的效率有极大帮助;文本插值能力啧可以生成句子间的衔接内容,提高文本流畅性和连贯性;其他优势还有细粒度控制和高稳健性等。
③ 截止 2023 年 5 月(综述最后更新时间),用扩散模型处理 NLP 任务存在多项局限,包含需要多轮扩散步骤的训练过程过于复杂、多次非线性变换导致潜空间表征过于抽象、离散数据处理难度高等。
2、在近期有关 dLLM 的研究中,较为有代表性的 LLaDA 于 2025 年 2 月提出,在 8B 规模上验证了冷启动训练 Diffusion LLM 的效果,表明了「通过前向掩码加噪与反向去噪机制,同样可以实现大语言模型的核心能力」。[1-8]
① LLaDA 工作由蚂蚁集团和中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队提出。该模型在发布时展示了在下有语言任务中与 Llama 3 8B 相竞争的能力和可扩展性。
3、根据李崇轩团队在论文及相关博客和文章中的描述,自回归 LLM 和扩散 LLM 本质上都是生成式模型,其工作过程通常包含三大要素,即网络结构(MLP、CNN、RNN、Transformer)、规模扩展(模型、数据、计算)、概率建模方法(VAE、GAN、Flow、自回归、扩散模型)。[1-6] [1-8]
① 其团队发现当前主流大语言模型普遍采用极大似然估计训练网络,而极大似然估计等价于最小化真实数据分布与模型分布的 KL 散度。他们认为:「大模型的诸多优良性质源于极大似然估计本身,而非自回归建模方式。」
② 生成式模型的可扩展性主要来自 Transformer 架构、模型与数据规模以及生成式原则所诱导的 Fisher 一致性之间相互作用的结果,而非自回归模型独有的特性,这一观点在 U-ViT 与 DiT 等视觉处理的成果上也有体现。
(文:机器之心)