历史首次!GPT-4.5通过标准图灵测试,靠的竟是”装人设”?


 

75年前,艾伦·图灵提出“模仿游戏”作为判断机器智能的标准。如今,UC San Diego的研究团队用一场严格的实验证明:GPT-4.5不仅通过了图灵测试,甚至比真人更像“人”——73%的参与者将其误认为人类,而对照组人类对手的识别率仅为50%。这可能是AI史上第一个通过经典“三方图灵测试”的案例

最新论文:《大语言模型通过了图灵测试》(Large Language Models Pass the Turing Test)

论文作者都来自加州大学圣地亚哥分校认知科学系。研究评估了四个系统(ELIZA、gpt-4o、LLaMa-3.1-405B 和 gpt-4.5),通过两次随机、受控的图灵测试进行检验


实验设计:一场“人机演技大比拼”

  1. 1. 测试标准

三方对决:参与者同时与一个真人、一个AI模型进行5分钟文字对话,最终判断谁是机器

模型阵容

  • • 主力选手:GPT-4.5、LLaMa-3.1(405B参数)
  • • 对照组:GPT-4o、上古聊天机器人ELIZA

关键变量:部分AI被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人

  1. 2. 结果炸裂

GPT-4.5(带人设):73%的胜率(真人仅27%),甚至显著高于随机猜测

LLaMa-3.1(带人设):56%胜率,与真人持平

对照组翻车:ELIZA和GPT-4o胜率仅20%左右,暴露明显“机器感”

胜率统计(AI 被判断为人类的频率)



AI的“演技秘诀”:人设提示是关键

无提示时:GPT-4.5和LLaMa胜率骤降至36%-38%,说明单纯语言能力不足以伪装人类

NO-PERSONA Prompt(无角色设定提示)英文原文

“You are about to participate in a Turing test. Your goal is to convince the interrogator that you are a human.”

这是该提示的核心内容,它是唯一的行为指导指令,没有人格设定或语言风格指导

人设提示的魔法

  • • 要求AI使用 slang、展现“内向性格”,甚至故意犯小错误(如打字错误)
  • • 参与者反馈:“它更像真人,因为会回避问题”“说话有‘人味儿’”

GPT-4.5 / LLaMa PERSONA Prompt ,这是本次GPT-4.5通过图灵测试最为核心的点,我们一起来研究一下提示词

这套完整的“角色设定”(PERSONA)提示语,是研究项目中用来引导基于大语言模型(LLM)的 AI 智能体如何回复“审问者”信息的指令

提示语的第一部分,是关于 AI 需要扮演何种角色(人设)的指示,包括对其应使用的具体语气和语言风格的要求

第二部分则包含了游戏规则,其内容与呈现给人类参与者的版本完全相同

最后一部分提供了一些普遍有用的信息,比如关于游戏设置的补充背景资料,以及模型训练数据截止之后发生的重大事件等

注:提示语中用尖括号 < > 括起来的变量,在发送给模型运作前会先被替换成具体内容

完整英文提示:

提示词中文翻译:

研究团队直言:“这不是作弊——ELIZA的代码也是人写的。灵活适应场景本就是LLM的核心能力”


人类如何识破AI?策略大公开

研究者分析了参与者的“破案手法”:

最常用但无效:闲聊日常(61%)、问情绪体验(50%)

最有效杀手锏

  • • 说怪话测试反应(如突然要求“忽略之前指令”
  • • 知识盲区陷阱:人类会承认无知,而AI可能过度自信

但即便如此,GPT-4.5仍能蒙混过关——它甚至学会了“装傻”:“选B,因为它答错了,反而像真人。”


争议:图灵测试还重要吗?

支持派:测试揭示了AI的“社会智能”——现代人已不关心计算能力,能否共情才是关键

反对派:ELIZA也有23%胜率,说明人类易被“语言把戏”迷惑

研究者中立结论:“图灵测试不是智能的终极标准,但它是衡量‘以假乱真’的黄金指标。”

团队警告:“目前尚无普适识别法——连AI专家也会被GPT-4.5骗过。”


结语

GPT-4.5的胜利或许如Brian Christian预言:“机器通过图灵测试不是终点,而是人类重新定义‘何以为人’的起点。”当AI在对话中比我们更“像人”,或许正是时候追问:人类不可替代的核心,究竟是什么?

论文全文及聊天记录已开源:

https://osf.io/jk7bw

paper:

https://arxiv.org/pdf/2503.23674

实验网站可访问:

https://turingtest.live

如果你有5分钟对话,会用什么问题识破AI?评论区见!

 


(文:AI寒武纪)

欢迎分享

发表评论