大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题 下午4时 2025/04/02 作者 量子位 腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。