历史首次！GPT-4.5通过标准图灵测试，靠的竟是"装人设"？

75年前，艾伦·图灵提出“模仿游戏”作为判断机器智能的标准。如今，UC San Diego的研究团队用一场严格的实验证明：GPT-4.5不仅通过了图灵测试，甚至比真人更像“人”——73%的参与者将其误认为人类，而对照组人类对手的识别率仅为50%。这可能是AI史上第一个通过经典“三方图灵测试”的案例

最新论文：《大语言模型通过了图灵测试》（Large Language Models Pass the Turing Test）

论文作者都来自加州大学圣地亚哥分校认知科学系。研究评估了四个系统（ELIZA、gpt-4o、LLaMa-3.1-405B 和 gpt-4.5），通过两次随机、受控的图灵测试进行检验

实验设计：一场“人机演技大比拼”

1. 测试标准

三方对决：参与者同时与一个真人、一个AI模型进行5分钟文字对话，最终判断谁是机器

模型阵容：

• 主力选手：GPT-4.5、LLaMa-3.1（405B参数）
• 对照组：GPT-4o、上古聊天机器人ELIZA

关键变量：部分AI被赋予“人设提示”（Persona Prompt），要求模仿内向、熟悉网络文化的年轻人

2. 结果炸裂

GPT-4.5（带人设）：73%的胜率（真人仅27%），甚至显著高于随机猜测

LLaMa-3.1（带人设）：56%胜率，与真人持平

对照组翻车：ELIZA和GPT-4o胜率仅20%左右，暴露明显“机器感”

胜率统计（AI 被判断为人类的频率）

AI的“演技秘诀”：人设提示是关键

无提示时：GPT-4.5和LLaMa胜率骤降至36%-38%，说明单纯语言能力不足以伪装人类

NO-PERSONA Prompt（无角色设定提示）英文原文

“You are about to participate in a Turing test. Your goal is to convince the interrogator that you are a human.”

这是该提示的核心内容，它是唯一的行为指导指令，没有人格设定或语言风格指导

人设提示的魔法：

• 要求AI使用 slang、展现“内向性格”，甚至故意犯小错误（如打字错误）
• 参与者反馈：“它更像真人，因为会回避问题”“说话有‘人味儿’”

GPT-4.5 / LLaMa PERSONA Prompt ，这是本次GPT-4.5通过图灵测试最为核心的点，我们一起来研究一下提示词

这套完整的“角色设定”（PERSONA）提示语，是研究项目中用来引导基于大语言模型（LLM）的 AI 智能体如何回复“审问者”信息的指令

提示语的第一部分，是关于 AI 需要扮演何种角色（人设）的指示，包括对其应使用的具体语气和语言风格的要求

第二部分则包含了游戏规则，其内容与呈现给人类参与者的版本完全相同

最后一部分提供了一些普遍有用的信息，比如关于游戏设置的补充背景资料，以及模型训练数据截止之后发生的重大事件等

注：提示语中用尖括号 < > 括起来的变量，在发送给模型运作前会先被替换成具体内容

完整英文提示：

提示词中文翻译：

研究团队直言：“这不是作弊——ELIZA的代码也是人写的。灵活适应场景本就是LLM的核心能力”

人类如何识破AI？策略大公开

研究者分析了参与者的“破案手法”：

最常用但无效：闲聊日常（61%）、问情绪体验（50%）

最有效杀手锏：

• 说怪话测试反应（如突然要求“忽略之前指令”
• 知识盲区陷阱：人类会承认无知，而AI可能过度自信

但即便如此，GPT-4.5仍能蒙混过关——它甚至学会了“装傻”：“选B，因为它答错了，反而像真人。”

争议：图灵测试还重要吗？

支持派：测试揭示了AI的“社会智能”——现代人已不关心计算能力，能否共情才是关键。

反对派：ELIZA也有23%胜率，说明人类易被“语言把戏”迷惑

研究者中立结论：“图灵测试不是智能的终极标准，但它是衡量‘以假乱真’的黄金指标。”

团队警告：“目前尚无普适识别法——连AI专家也会被GPT-4.5骗过。”

结语

GPT-4.5的胜利或许如Brian Christian预言：“机器通过图灵测试不是终点，而是人类重新定义‘何以为人’的起点。”当AI在对话中比我们更“像人”，或许正是时候追问：人类不可替代的核心，究竟是什么？

论文全文及聊天记录已开源：

https://osf.io/jk7bw

paper：

https://arxiv.org/pdf/2503.23674

实验网站可访问：

https://turingtest.live

如果你有5分钟对话，会用什么问题识破AI？评论区见！

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

历史首次！GPT-4.5通过标准图灵测试，靠的竟是”装人设”？

实验设计：一场“人机演技大比拼”

AI的“演技秘诀”：人设提示是关键

人类如何识破AI？策略大公开

争议：图灵测试还重要吗？

发表评论取消回复

实验设计：一场“人机演技大比拼”

AI的“演技秘诀”：人设提示是关键

人类如何识破AI？策略大公开

争议：图灵测试还重要吗？

发表评论 取消回复

发表评论取消回复