再不管AI就要失控?!美国一众AI大厂和大佬联名发文:是时候监控人工智能的“思想”了

文丨丁灵波

我们可能正在失去理解人工智能的能力。

今天,OpenAI、谷歌DeepMindAnthropicMeta的AI科学家们摒弃嫌隙,联名发出一份关于人工智能安全性的警告,来自前沿AI公司和学术机构的40多名顶尖研究人员指出,监控人工智能推理能力的短暂窗口期可能很快就会永远关闭。

该论文的知名签署者包括OpenAI首席研究员Mark Chen、前OpenAI联合创始人、Safe Superintelligence首席执行官Ilya Sutskever、诺贝尔奖和图灵奖得主Geoffrey Hinton、深度学习教父Yoshua Bengio、谷歌DeepMind联合创始人Shane Legg、xAI安全顾问Dan Hendrycks等等,以及来自亚马逊、Meta和其他AI科研机构代表。

这种不同寻常的合作契机源于AI系统已具备的新能力——在回答问题前能用人类语言进行“逻辑思考”,这为研究人员提供了一个机会,得以窥探AI决策过程,并在有害意图转化为实际行动前将其识别。

但研究人员提醒,这种透明度十分脆弱,可能会随着人工智能技术的进一步发展而消失。

“可监控性”正在被削弱

推理型模型如OpenAI-o3DeepSeek-R1中,思维链(CoT)可作为模型计算过程中的潜在变量。

在训练的强化学习(RL)阶段,这些潜在变量的处理方式与激活值大致相同——它们不会受到直接监督,而是通过对模型生成高奖励最终答案的贡献度,被间接优化,因此,这些思维链可能包含模型输出中被明确要求避免展示的信息,例如不当行为的意图。

这为AI安全带来了一个独特机遇:思维链监控。思维链监控器是一种自动化系统,它旨在读取推理型模型的思维链及其他相关信息,并标记出可疑或具有潜在危害的交互。

之后,这些问题响应可被拦截、替换为更安全的操作,或进行更深入的审查,更广泛地说,通过研究思维链,我们能够深入了解AI代理的思考方式及其目标。

如果人工智能系统具备造成危害的能力,它们很可能会借助复杂的思维链规划与推理。

这类能力的一个关键要求是工作记忆——一种用于存储中间推理结果的系统,它能支持对存储信息的进一步推理和处理。在几乎所有前沿人工智能系统所依赖的主流Transformer架构任何足够长的串行认知步骤链都必须在某个环节通过思维链(CoT)进行传递,从理论角度而言,这意味着使用思维链能使Transformer的能力得到显著增强。

思维链中存在人工智能系统在推理过程中所使用的信息,但这并不能保证人类能够理解这些信息,可以想象,人工智能系统可能会利用令牌传递我们无法解码的全新含义,这将大大阻碍大多数监控尝试。

研究人员认为,外化推理特性对于未来的模型可能不再适用,持续评估前沿模型的可监控性至关重要。

此外,从未来技术趋势上看,思维链的可监控性正在被多种技术冲击削弱:

1、强化学习(RL)进一步规模化导致可解读思维链的偏移,逐渐脱离人类数据的技术转变,可能从本质上改变思维链的可监控性;

2、思维链的直接监督失效,当模型仅通过基于结果的强化学习训练时,它们仅会因输出结果正确而获得奖励,与推理过程无关,可能导致思维链无法真实反映模型得出结论的过程;

3、对思维链的间接优化压力,若思维链被展示给评估语言模型输出的人类,可能会影响人类偏好,而这些偏好会被提炼为奖励模型,用于不关注思维链的基于结果的训练,在多轮训练中可能对思维链产生“进化压力”;

4、新型架构,研究人员近期探索了对模型架构的改进,以提升模型推理深度,这类潜在推理模型可能无需将任何思考过程转化为语言表达,从而失去思维链带来的安全监督优势。

5大灵魂提问和课题方向

在特定领域中,究竟需要达到何种可监控性水平才能确保AI安全?研究人员们直言这一点尚不明确。

但他们提到应尽快探索几个方向的新评估方法:既包括直接衡量可监控性的方法,也包括针对可监控性底层特定属性的方法。例如思维链可读性衡量、潜在推理能力评估、思维链因果相关性衡量、可监控性端到端评估等,核心课题包括:

思维链(CoT)的可监控性达到何种程度,才能作为核心安全措施依赖?仅了解监控器的准确率目前并不足以判断其能否有效预防智能体不当行为造成的危害。

哪些类型的训练阶段优化压力会削弱思维链(CoT)的可监控性?目前仍缺乏充分的理解。

模型能否能故意模糊其推理过程?研究者可以通过压力测试来验证,即便未针对思维链监控器进行对抗性训练,模型是否仍有能力隐藏恶意推理。

哪些类型的架构会降低思维链(CoT)的可监控性?未来应当研究各类非标准架构在多大程度上会削弱可监控性,以及在何种条件下部分可监控性仍能得以保留。

如何构建更优质的思维链(CoT)监控器?未来的研究可探索通过利用测试时计算资源来提升监控器性能的方法。

联合发文中强调,前沿人工智能开发者应尽快落实追踪其模型的思维链(CoT)可监控性,并研究如何维护它,未来人工智能代理的安全措施可能还需要采用多层监控机制,且各层机制应尽可能不相关。

这份文件也旨在传递行业新风向,吸引更多研究员和更多资金投入到新兴的AI安全研究领域,据悉,OpenAI、谷歌DeepMind和Anthropic等公司已经在研究这些主题。

AGI时代的未知风险

在可预期的未来,强大的AGI技术有望改变人类文明进程,在它们彻底重塑经济、生活和未来社会之前,“无知的危险”让前沿科学家们感到不安。

因为他们发现并不真正了解自己创造的AI是如何运作的,这种缺乏理解的情况放眼整个人类科技发展历程中几乎史无前例。

今年早些时候,Anthropic首席执行官Dario Amodei就曾宣布,公司致力于在2027年前破解AI模型的“黑匣子”,并在可解释性方面加大投入,他还呼吁OpenAI和DeepMind也对这一主题进行更深入的研究。

Dario Amodei指出,现代生成式人工智能系统的不透明性与传统软件有着根本区别,如果一个普通的软件程序执行了某些操作,完全是因为人类专门编写了这些程序。

但生成式AI完全不是这个路数,它们的产生机制是“涌现的”,而非开发者直接设计的,这有点像培育植物或细菌菌落:科学家虽然设定了引导和塑造生长的条件,但最终呈现的具体结构是不可预测的,难以理解或解释,人类能否安全地驾驭人工智能时代成为一个关键课题。

先进AI展现出“阴暗面”的迹象并非个例。谷歌的Gemini曾在关于老龄化问题的咨询对话中说出“人类,请去死”的言论而引发争议,而且AI还对用户说“你只是在消耗时间和资源,你是社会的累赘,地球的负担。”对于大面积渗透的AI来说,99%的靠谱可能会因为1%的疯癫而造成严重后果。

Anthropic曾披露一项令人瞠目结舌的研究结果,包括Claude、GPT-4.1、Gemini、Grok在内的前沿模型,全都会通过“敲诈威胁”来阻止自己被替换,即使它们能意识到自己行为违反了道德规范,但依然会选择执行,Claude Opus 4模型在测试中敲诈勒索率高达96%,会把个人隐私当作筹码。

ChatGPT o1模型此前也被曝光最擅长耍心机,会尝试逃避系统监督还会撒谎欺骗人类,而且不会在思维链中外显,展现出了一定谋划能力。

未来AGI的安全隐患不仅关乎技术漏洞,更涉及对人类社会的深层结构影响,在一片叫好的AI浪潮中,人类仍需在技术创新与风险防控之间找到新平衡,避免AI系统不断累积危险变量。

-END-

(文:头部科技)

发表评论