过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

清华大学刘润泽等人提出生成式过程奖励模型GenPRM,通过思维链推理和代码验证增强大语言模型的推理能力。仅23K训练样本就取得了优异性能,展示了测试时扩展在提升小模型表现上的潜力。

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

MegaMath 是一个包含3710亿tokens的开源数学推理预训练数据集,覆盖网页、代码和高质量合成数据三大领域。它首次在规模上超越了DeepSeek-Math Corpus(120B),代表从‘只靠网页’到‘面向推理’的重大跨越。