大模型强化学习新突破——SPO新范式助力大模型推理能力提升! 下午11时 2025/06/08 作者 机器之心 Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效