扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源 下午4时 2025/04/20 作者 机器之心 扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。