突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力 下午4时 2025/05/08 作者 量子位 态大语言模型(MLLMs)的表现中起着至关重要的作用: 在训练阶段,它可以提供稳定的reward;