LLaDA 创新性地将扩散模型应用于大规模语言建模,成功构建了首个 80 亿参数的扩散 LLM,并在多个任务上展现出与自回归模型相媲美的性能,尤其在逆向推理方面表现突出,有力地证明了扩散模型是构建下一代 LLM 的极具潜力的替代方案,并挑战了自回归模型在 LLM 领域的绝对统治地位。
作者提出了一种新方法,文本首先通过逐渐掩码输入部分来“加噪”。然后,基于 Transformer 架构的模型学习通过一次性预测被掩码的内容来恢复原始文本,而非逐词进行。就像完形填空。
主要优势是:解决传统语言模型无法逆向生成内容的问题,可以同时预测多个标记,避免长文本生成低效问题。而且作为一个新架构 7B 模型在 15 项测试中都超过了Llama-2 7B,与 Llama-3 8B 相当。


参考文献:
[1] 论文地址:Large Language Diffusion Models:https://arxiv.org/abs/2502.09992
(文:NLP工程化)