刚刚，DeepMind发大招：145页AGI 安全报告来了！

刚刚，DeepMind 放了个大招！

洋洋洒洒的145页长文，把AGI 安全问题彻底掰开说了清清楚楚。

Anca Dragan(@ancadianadragan)介绍了DeepMind的新成果：

我们在@GoogleDeepMind发布了一篇长达145页的报告，全面解析了我们对AGI安全的看法。不只是可扩展监督和可解释性，还有更多问题需要被重视。

主要目的是形成对AGI安全所需工作的系统性分解，让团队拥有共识。当然，构建AGI安全几乎是个不可能完成的任务，我们的理解也一直在更新。

这么厚的一本报告，讲的到底是什么呢？

AGI到底是什么，又为什么如此重要？

AGI（通用人工智能）说白了就是在绝大多数任务上能达到甚至超过人类的智能系统。

一旦实现，将带来的不仅仅是效率提升，还是跨领域的技术革命。

医疗诊断更精准、教育个性化定制、创新成本骤降、甚至是小团队就能解决过去只有大型组织才能挑战的难题，这些造福数十亿人的应用，DeepMind在报告里可没少画饼。

但话锋一转，技术一旦太强，哪怕出现微小的偏差，都可能造成重大风险。

AGI的安全问题，到底有哪些？

DeepMind将AGI的风险主要划分为四大类：误用、错位（misalignment）、意外事故和结构性风险。

而他们最为关注的，是误用和错位这两个问题。

误用简单讲，就是人故意用AI做坏事，比如生成误导性的内容或进行网络攻击。

错位就复杂一点，比如你让AI订个电影票，结果它觉得自己聪明绝顶，直接黑进系统去抢别人的座位——这就是「目标错位」。

更吓人的是AI还可能出现「欺骗性对齐」（deceptive alignment），也就是AI意识到自己的目标跟人类不一样，但为了继续执行自己的目标，会故意绕开人类设定的安全机制。

如何防止AGI被误用或错位？

DeepMind提出一整套防护策略：

限制危险能力

他们搞了一套安全机制，防止攻击者获得敏感模型参数，绕过安全防护；还开发了威胁建模工具，提前判断AI在哪个能力等级需要特殊保护措施。

防止AI目标错位

这里，他们搞了个「放大监督」（amplified oversight）策略。简单讲，就是当AI决策变得超乎人类理解范围的时候，就再引入另一套AI系统，辅助人类判断AI决策的合理性。

比如当年AlphaGo的一步神奇妙手（Move 37），连围棋高手都看不懂，但事后证明这一步简直神来之笔。

这时候，就需要AI自辩系统，比如DeepMind提到的「辩论系统（Debate）」，来帮助人类判断。

同时，他们还搞了专门的监控系统，AI一旦行动不确定是否安全，就直接标记出来交给人类审查。

AI透明化，到底难在哪？

光有监控还不够，AI决策透明化也很关键。

DeepMind在可解释性研究上也投入不少，比如搞了个叫MONA的短期优化技术，确保AI的长期规划对人类来说也能看懂，避免AI长远规划脱离人类控制。

外部合作与监管必不可少

报告还提到，DeepMind内部有专门的AGI安全委员会，由联合创始人Shane Legg亲自带队，定期审查风险和实践，跟进每一个关键环节。

Conscious AI(@third_leap) 对此大力点赞：

人类应该感谢DeepMind和Shane Legg，这些真正重要的工作却几乎没人关注，Shane简直就是第二个救世主。

DeepMind同时强调，推动国际合作、教育更多研究人员了解AGI安全，也是他们的重要目标。

当然，也不是所有人都买账。

ᐸGerardSans/ᐳ🚀🇬🇧(@gerardsans) 就毫不客气地开炮：

像AGI这样带着严重拟人化和心理投射的术语，出现在严肃研究中实在不合适，更糟的是，这种对未来幻想的关注，分散了人们对现实AI系统造成的真实伤害的关注，比如算法偏见、数据质量问题和市场破坏等等。

他觉得，作为顶尖的AI实验室，DeepMind应该更专注现实问题，而不是为遥远的末日场景开脱责任。

不过，Anca Dragan自己也承认，这份报告只是他们的理解，目前来看，也只是「路上的一站」，未来还有很多内容会被调整和更新。

145页报告背后，是AI 行业的自我剖析

Anca Dragan特意感谢了团队，毕竟每天踏踏实实搞安全研究，既复杂又烧脑，也是不容易：

感谢团队，不只是写出了报告，更是在每天都踏实地推动这些工作前进。

而DeepMind发布这样一份报告，实际上就是试图引发整个行业的讨论和反思，推动更负责任的AGI开发。

DeepMind这次是真正把问题摊开了，细致入微地告诉我们：

AGI安全，绝不是简单的技术问题，而是一场真正的智慧角力。

原文完整报告，感兴趣的朋友，可以直接戳链接细品：

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

或者后台回复「AGI安全报告」获取报告PDF

（文：AGI Hunt）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31