安全行为归档 - 每时AI

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

2025年6月26日11时作者量子位

奖励模型
训练也形成了学生选择标准答案的学习模式，陷入诸如“长回答=好回答”“好格式=好答案”等错误