软奖励归档 - 每时AI

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

2025年4月2日16时作者量子位

腾讯&苏州大学团队提出新框架RLVR，使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集，并指出未使用思维链推理方法仍需深入研究。