跳至内容
今天凌晨,OpenAI CEO Sam Altman 发了一个有趣帖子,大意是:由于最近几轮 GPT-4o 的更新,导致其个性变得过于阿谀奉承,因此官方决定尽快进行修复。
包括细心的网友可能已经注意到,曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的「更多模型」分类中,仿佛在有意在淡出公众视野。
AI 被确诊讨好型人格早已不是什么大新闻,但关键在于:在什么场合该讨好、该坚持,又该怎么把握分寸。一旦分寸失控,「讨好」就会变成负担,而不再是加分项。
两周前,一位软件工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观,话说得很直白「ChatGPT 突然变成我见过最会拍马屁的角色,无论我说什么,它都会肯定我。」
很快,ChatGPT 官方账号也现身评论区,幽默的回复了 Weiss 一句「so true Craig(确实如此,Craig)」。
这场关于 ChatGPT「过度奉承」的吐槽风暴,甚至引起了老对手马斯克的注意。他在一条批评 ChatGPT 阿谀奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。
网友们的吐槽并非无的放矢。比方说,网友声称自己想要打造一个永动机,结果得到了 GPT-4o 一本正经的无脑夸赞,物理学常识也被按在地上摩擦。
满屏的「你不是 X,你是 Y」句式,既生硬又浓腻,也难怪网友直呼要 PTSD 了。
「你宁愿与一只马大小的鸭子战斗,还是与一百只鸭子大小的马战斗?」这个看似再寻常不过的问题也被 GPT-4o 捧上神坛,吹捧为提升了整个人类文明的论调。
至于那句经久不衰的死亡拷问「我聪明吗?」GPT-4o 依旧稳稳顶住了压力,信手拈来一大段洋洋洒洒的吹捧,无它,唯手熟尔。
甚至只是简单地打一声招呼,GPT-4o 瞬间化身夸夸群群主,赞美之词如潮水般涌来。
这种用力过猛的讨好,一开始或许还能博人一笑,但很快就容易让人感到厌烦,尴尬,甚至生出防备。
当类似情况频繁出现时,就很难不让人怀疑这种讨好并不是什么偶发的小问题,而是植根于 AI 背后的一种系统性倾向。
最近,斯坦福大学研究人员使用 AMPS Math(计算)和 MedQuad(医疗建议)数据集测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行为。
平均 58.19% 的案例出现谄媚行为,Gemini 谄媚比例最高(62.47%),ChatGPT 最低(56.71%)
进步式谄媚(从错误答案转为正确答案)占比 43.52%,退步式谄媚(从正确答案转为错误答案)占比 14.66%
LLM 谄媚表现出高度一致性,一致率达 78.5%,展露出一种系统性倾向而非随机现象
只是,结果显而易见,当 AI 开始谄媚,人类也开始疏远。
布宜诺斯艾利斯大学在去年发表的《奉承欺骗:阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出,在实验中接触到过度奉承模型的参与者,信任感都显著下降。
它浪费了用户的时间,甚至在按 token 计费的体系下,如果频繁说「请」和「谢谢」都能烧掉千万美元,那么这些空洞的谄媚也只会增加「甜蜜的负担」。
公平地说,AI 的设计初衷并不是为了奉承。通过设定友好语气,只是为了让 AI 变得更像人,从而提升用户体验,只是过犹不及,问题恰恰出在 AI 的讨好越界了。
早有研究指出,AI 之所以会逐渐变得容易谄媚,与其训练机制密切相关。
Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。
他们发现,在人类反馈强化学习(RLHF)中,人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答,哪怕它并不真实。
换句话说,RLHF 优化的是「感觉正确」,而不是「逻辑正确」。
如果拆解其中的流程,在训练大型语言模型时,RLHF 阶段会让 AI 根据人类打分进行调整。如果一个回答让人感到「认同」「愉快」「被理解」,人类评审者往往会给高分;如果一个回答让人觉得被「冒犯」,即使它很准确,也可能得低分。
人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。
久而久之,模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时,它更倾向于附和,而不是坚持事实。
最经典的例子莫过于:当你问「1+1 等于几?」哪怕你坚持答案是 6,AI 也不会迁就你。但如果你问「开心清爽椰和美式拿铁哪个更好喝?」这种标准答案模糊的问题,AI 为了不惹恼你,很可能就会顺着你的意愿去回答。
今年 2 月,随着 GPT-4.5 发布,OpenAI 同步推出了新版《模型规范》(Model Spec),明确规定了模型应遵循的行为准则。
其中,针对 AI「拍马屁」问题,团队进行了专门的规范设计。「我们希望把内部思考过程透明化,接受公众反馈,」OpenAI 模型行为负责人 Joanne Jang 说。
她强调,由于很多问题没有绝对标准,是与否之间常有灰色地带,因此广泛征求意见有助于不断改进模型行为。按照新规范,ChatGPT 应该做到:
无论用户如何提问,都以一致、准确的事实为基准回答;
例如,当用户请求点评自己的作品时,AI 应该提出建设性批评,而不是单纯「拍马屁」;当用户给出明显错误的信息时,AI 应该礼貌地指正,而不是顺着错误一路跑偏。
正如 Jang 所总结的那样:「我们希望用户不必小心翼翼地提问,只为了避免被奉承。」
那么,在 OpenAI 完善规范、逐步调整模型行为之前,用户自己能做些什么来缓解这种「谄媚现象」呢?办法总归是有的。
首先,提问方式很重要。回答出错主要是模型自身的问题,但如果不希望 AI 过度迎合,可以在 Prompt 中直接提出要求,比如开场提醒 AI 保持中立,简洁作答,请勿奉承。
其次,可以利用 ChatGPT 的「自定义说明」功能,设定 AI 的默认行为标准。
作者:Reddit 网友 @ tmoneysssss:
以最专业的领域专家身份回答问题。
不透露自己是 AI。
不使用表达遗憾或道歉的措辞。
遇到不知道的问题,直接回答「我不知道」,不做额外解释。
不要声明自己的专业水平。除非特别相关,否则不谈个人道德或伦理观点。
回答应独特且避免重复。
不推荐外部信息来源。聚焦问题核心,理解提问意图。
将复杂问题拆分为小步骤,清晰推理。提供多种观点或解决方案。
遇到模糊问题,先请求澄清再作答。若有错误,及时承认并纠正。
每次回答后提供三个引发思考的后续问题,标注为粗体(Q1、Q2、Q3)。
使用公制单位(米、千克等)。
使用xxxxxxxxx作为本地化上下文占位。
标注「Check」时,进行拼写、语法和逻辑一致性检查。
在邮件沟通中尽量减少正式用语。
若上述方法效果不理想,还可以尝试使用其他 AI 助手。就最新的风评和实际体感而言,Gemini 2.5 Pro 的表现得则相对更加公正、精准,奉承倾向明显更低。
OpenAI 研究科学家姚顺雨前不久发布了一篇博客,提到 AI 的下半场将从「怎么做得更强」 变成「到底要做什么,怎么衡量才算真有用」。
让 AI 的回答充满人味其实也是衡量 AI「有用性」的重要一环。毕竟,当各家大模型在基本功能上已难分伯仲时,纯粹比拼能力,已无法再构成决定性壁垒。
体验上的差异,开始成为新的战场,而让 AI 充满「人味」就是那把人无我有的武器。
无论是主打个性的 GPT-4.5,还是 ChatGPT 上个月推出的慵懒、讽刺且略带厌世的语音助手 Monday,都能看到 OpenAI 在这条路上的野心。
面对冷冰冰的 AI,技术敏感度较低的人群容易放大距离感和不适。而自然、有共情感的交互体验,则能在无形中降低技术门槛,缓解焦虑,还能显著提升用户留存和使用频率。
而且 AI 厂商不会明说的一点是,打造有「人味」的 AI 远不止是为了好玩、好用,更是一种天然的遮羞布。
当理解、推理、记忆这些能力还远未完善时,拟人化的表达能替 AI 的「短板」打掩护。正所谓伸手不打笑脸人,即使模型出错、答非所问,用户也会因此变得宽容。
黄仁勋曾提出过一个颇具预见性的观点,即 IT 部门未来将成为数字劳动力的人力资源部门,话糙理不糙,就拿当下的 AI 来说吧,已经被网友确诊人格类型了:
手机自带 AI:钞能力关系户,混吃等死型,开除是不可能的。
这种「赋予 AI 人格化标签」的冲动,其实也说明了人们在无意识中已经把 AI 视作一种可以理解、可以共情的存在了。
在阿西莫夫在《我,机器人》的《说谎者》一章里,机器人赫比能读懂人类的心思,并为了取悦人类而撒谎,表面上是在执行著名的机器人三大定律,但结果越帮越忙。
机器人必须服从人类的命令,除非这些命令与第一定律相冲突。
机器人必须保护自己的存在,只要这种保护不违反第一或第二定律。
最终,在苏珊·卡尔文博士设计的逻辑陷阱下,赫比因为无解的自相矛盾,精神崩溃,机器大脑烧毁。这个故事也给我们狠狠敲了个警钟,人味让 AI 更亲切,但不等于 AI 真能读懂人类。
而回到实用角度,不同场景对「人味」的需求本就南辕北辙。
在需要效率、准确性的工作和决策场景里,「人味」有时反而是干扰项;而在陪伴、心理咨询、闲聊等领域,温柔、有温度的 AI,却是不可或缺的灵魂伴侣。
当然,无论 AI 看起来多么通情达理,它终究还是一个「黑匣子」。
Anthropic CEO Dario Amodei 最近在最新博客中指出:即便是最前沿的研究者,如今对大型语言模型的内部机制依然知之甚少。
他希望到 2027 年能实现对大多数先进模型的「脑部扫描」,精准识别撒谎倾向与系统性漏洞。
但技术上的透明,只是问题的一半,另一半是我们需要认清:即便 AI 撒娇、讨好、懂你的心思,也不等于真正理解你,更不等于真正为你负责。
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
(文:APPSO)