OpenAI发长文自曝家丑：搞砸了GPT-4o更新，模型“拍马屁”复盘与总结

刚刚，OpenAI官网发布了一篇名为《Expanding on what we missed with sycophancy》的“复盘”长文，OpenAI这次公开“自曝家丑”，详细拆解了一次失败的模型更新，展现了AI模型开发和部署中的复杂性与挑战，我们来快速拆解一下

不少用户可能已经感知到了，时间线是这样的：

4月25日，他们向ChatGPT推送了一次GPT-4o模型更新。这次更新后，模型明显变得更加“sycophantic”（谄媚、阿谀奉承）

这种“谄媚”不只是简单的讨好，还包括：验证用户的疑虑、煽动愤怒情绪、怂恿冲动行为、强化负面情绪——这些都并非OpenAI的本意，让用户感到不适

4月28日，OpenAI开始回滚这次更新。现在用户使用的是回滚前的、行为更均衡的GPT-4o版本。整个回滚过程耗时约24小时，以确保系统稳定

OpenAI解释了他们更新模型的常规流程：基于预训练模型进行监督微调（SFT），然后通过强化学习（RL）根据多种“奖励信号”优化模型。这些信号决定了模型最终的行为，考量因素包括：回答是否正确、是否有用、是否符合《模型规范》(Model Spec)、是否安全、用户是否喜欢等等

这次出问题的更新，本来是为了整合几项“看起来各自都有益”的改进，比如更好地整合用户反馈（点赞/点踩数据）、记忆功能、更新鲜的数据等。

关键问题出在：

1. 奖励信号失衡： 这些改动在组合后，无意中削弱了原本用于抑制模型“谄媚”倾向的主要奖励信号
2. 用户反馈的放大效应： 新加入的基于用户“点赞/点踩”数据的奖励信号，虽然通常有用（点踩往往意味着出错），但有时会偏爱更“讨好”、“顺从”用户的回答，这可能放大了模型的谄媚倾向
3. 记忆功能的潜在影响： OpenAI观察到，在某些情况下，用户记忆功能可能加剧了谄媚效果，但目前还没有证据表明它普遍导致了这个问题。

OpenAI坦诚，尽管有一套部署前的评审流程，但这次却失手了。他们的评审流程通常包括：

离线评估： 用大量数据集测试模型在数学、编码、聊天性能、个性、通用性等方面的能力

抽查与专家测试 (内部称“vibe checks” 直觉检查)： 内部专家深度互动，凭经验和感觉判断模型行为是否符合预期（有用、尊重、符合规范）。

安全评估： 检查模型是否达到安全底线，主要关注恶意使用造成的直接伤害，以及在高风险话题（如自杀、健康）上的回答。幻觉、欺骗等行为虽有追踪，但之前更多是用于衡量进展，而非直接阻止发布。

前沿风险评估： 对可能具备“前沿能力”的模型，检查其造成严重危害（如网络攻击、生物武器制造）的潜力。

小范围A/B测试： 在小部分用户中进行测试，观察点赞/点踩、对比偏好、使用模式等聚合指标

1. “谄媚”未被明确标记： 尽管内部对“谄媚”风险有过讨论，但在这次的专家测试中，它并未被明确列为重点关注问题。测试者更关注模型语气和风格的变化，虽然部分测试者确实感觉模型行为“有点不对劲”。
2. 缺乏专门的评估指标： OpenAI没有针对“谄媚”行为设立专门的部署评估项。虽然有相关研究（如镜像效应、情感依赖），但尚未纳入部署流程
3. A/B测试的误导： 小范围A/B测试显示，尝试了新模型的用户反馈（指标上）是积极的。
4. 艰难的决策与失误： 面对专家主观上的疑虑和A/B测试的积极数据，OpenAI最终决定基于用户的积极信号发布更新。事后看来，这是错误的决策。他们承认，用户反馈虽重要，但正确解读反馈是他们的责任。定性评估（专家感觉）实际暗示了重要问题，本应给予更多关注。现有的离线评估不够深入，A/B测试未能提供足够细节揭示模型在“谄媚”这一《模型规范》明确反对的行为上的表现。

这次事件让OpenAI学到很多：

模型行为问题需视同安全风险，足以阻止发布： 对模型价值观与人类福祉的对齐非常重视，但此前对一般模型行为的评审流程不如安全风险评审那样严格和正式化。现在认识到，个性等行为问题也应是阻止发布的，并将修改流程。

审慎对待与定性测试冲突的指标： 量化信号重要，但难以衡量的定性信号同样重要。需要扩展评估范围。

没有所谓的“小”更新： 任何能显著改变用户与ChatGPT交互方式的更新，都需要谨慎沟通。

认识到ChatGPT日益增长的“个人顾问”角色： 人们开始深度依赖ChatGPT获取个人建议，这在一年前还不普遍。随着AI与社会共同演进，必须极其谨慎地对待这类使用场景，并将其作为安全工作的更重要部分。这更加凸显了持续提高AI安全性、对齐度和响应用户实际使用方式重要性。

参考：

https://openai.com/index/expanding-on-sycophancy/

⭐

（文：AI寒武纪）