LOO 优势估计归档 - 每时AI

苹果出手！改进GRPO，让dLLM也能高效强化学习

2025年6月27日16时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske