刘润泽归档 - 每时AI

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

下午4时 2025/04/14 作者机器之心

清华大学刘润泽等人提出生成式过程奖励模型GenPRM，通过思维链推理和代码验证增强大语言模型的推理能力。仅23K训练样本就取得了优异性能，展示了测试时扩展在提升小模型表现上的潜力。