扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。
本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。
ICLR 2025 论文分享会将于4月20日在北京举办,主题包括训练推理、多模态和Agent等。顶尖专家李崇轩将介绍扩散模型在大语言模型范式中的应用,陈键飞则介绍高效训练推理的理论及算法。