苹果与港大出手!改进GRPO,让dLLM也能高效强化学习 2025年6月27日23时 作者 机器之心 。 不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(maske