
75年前,艾伦·图灵提出“模仿游戏”作为判断机器智能的标准。如今,UC San Diego的研究团队用一场严格的实验证明:GPT-4.5不仅通过了图灵测试,甚至比真人更像“人”——73%的参与者将其误认为人类,而对照组人类对手的识别率仅为50%。这可能是AI史上第一个通过经典“三方图灵测试”的案例
最新论文:《大语言模型通过了图灵测试》(Large Language Models Pass the Turing Test)

论文作者都来自加州大学圣地亚哥分校认知科学系。研究评估了四个系统(ELIZA、gpt-4o、LLaMa-3.1-405B 和 gpt-4.5),通过两次随机、受控的图灵测试进行检验
实验设计:一场“人机演技大比拼”
-
1. 测试标准
三方对决:参与者同时与一个真人、一个AI模型进行5分钟文字对话,最终判断谁是机器
模型阵容:
-
• 主力选手:GPT-4.5、LLaMa-3.1(405B参数) -
• 对照组:GPT-4o、上古聊天机器人ELIZA
关键变量:部分AI被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人
-
2. 结果炸裂
GPT-4.5(带人设):73%的胜率(真人仅27%),甚至显著高于随机猜测
LLaMa-3.1(带人设):56%胜率,与真人持平
对照组翻车:ELIZA和GPT-4o胜率仅20%左右,暴露明显“机器感”
胜率统计(AI 被判断为人类的频率)


AI的“演技秘诀”:人设提示是关键
无提示时:GPT-4.5和LLaMa胜率骤降至36%-38%,说明单纯语言能力不足以伪装人类
NO-PERSONA Prompt(无角色设定提示)英文原文
“You are about to participate in a Turing test. Your goal is to convince the interrogator that you are a human.”
这是该提示的核心内容,它是唯一的行为指导指令,没有人格设定或语言风格指导
人设提示的魔法:
-
• 要求AI使用 slang、展现“内向性格”,甚至故意犯小错误(如打字错误) -
• 参与者反馈:“它更像真人,因为会回避问题”“说话有‘人味儿’”
GPT-4.5 / LLaMa PERSONA Prompt ,这是本次GPT-4.5通过图灵测试最为核心的点,我们一起来研究一下提示词

这套完整的“角色设定”(PERSONA)提示语,是研究项目中用来引导基于大语言模型(LLM)的 AI 智能体如何回复“审问者”信息的指令
提示语的第一部分,是关于 AI 需要扮演何种角色(人设)的指示,包括对其应使用的具体语气和语言风格的要求
第二部分则包含了游戏规则,其内容与呈现给人类参与者的版本完全相同
最后一部分提供了一些普遍有用的信息,比如关于游戏设置的补充背景资料,以及模型训练数据截止之后发生的重大事件等
注:提示语中用尖括号 < > 括起来的变量,在发送给模型运作前会先被替换成具体内容
完整英文提示:

提示词中文翻译:

研究团队直言:“这不是作弊——ELIZA的代码也是人写的。灵活适应场景本就是LLM的核心能力”
人类如何识破AI?策略大公开
研究者分析了参与者的“破案手法”:
最常用但无效:闲聊日常(61%)、问情绪体验(50%)
最有效杀手锏:
-
• 说怪话测试反应(如突然要求“忽略之前指令” -
• 知识盲区陷阱:人类会承认无知,而AI可能过度自信
但即便如此,GPT-4.5仍能蒙混过关——它甚至学会了“装傻”:“选B,因为它答错了,反而像真人。”
争议:图灵测试还重要吗?
支持派:测试揭示了AI的“社会智能”——现代人已不关心计算能力,能否共情才是关键。
反对派:ELIZA也有23%胜率,说明人类易被“语言把戏”迷惑
研究者中立结论:“图灵测试不是智能的终极标准,但它是衡量‘以假乱真’的黄金指标。”
团队警告:“目前尚无普适识别法——连AI专家也会被GPT-4.5骗过。”
结语
GPT-4.5的胜利或许如Brian Christian预言:“机器通过图灵测试不是终点,而是人类重新定义‘何以为人’的起点。”当AI在对话中比我们更“像人”,或许正是时候追问:人类不可替代的核心,究竟是什么?
论文全文及聊天记录已开源:
https://osf.io/jk7bw
paper:
https://arxiv.org/pdf/2503.23674
实验网站可访问:
https://turingtest.live
如果你有5分钟对话,会用什么问题识破AI?评论区见!
⭐
(文:AI寒武纪)