揭秘大模型强推理能力幕后功臣“缺陷”,过程级奖励模型新基准来了 2025年1月15日23时 作者 量子位 复旦大学宋明阳 投稿 量子位 | 公众号 QbitAI 截止目前,o1 等强推理模型的出现证明了 P