pass@k指标归档 - 每时AI

苹果与港大出手！改进GRPO，让dLLM也能高效强化学习

2025年6月27日23时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske