大型语言扩散模型

LLaDA 创新性地将扩散模型应用于大规模语言建模，成功构建了首个 80 亿参数的扩散 LLM，并在多个任务上展现出与自回归模型相媲美的性能，尤其在逆向推理方面表现突出，有力地证明了扩散模型是构建下一代 LLM 的极具潜力的替代方案，并挑战了自回归模型在 LLM 领域的绝对统治地位。

作者提出了一种新方法，文本首先通过逐渐掩码输入部分来“加噪”。然后，基于 Transformer 架构的模型学习通过一次性预测被掩码的内容来恢复原始文本，而非逐词进行。就像完形填空。

主要优势是：解决传统语言模型无法逆向生成内容的问题，可以同时预测多个标记，避免长文本生成低效问题。而且作为一个新架构 7B 模型在 15 项测试中都超过了Llama-2 7B，与 Llama-3 8B 相当。

参考文献：
[1] 论文地址：Large Language Diffusion Models：https://arxiv.org/abs/2502.09992

（文：NLP工程化）