刚刚,DeepMind 放了个大招!

洋洋洒洒的145页长文,把AGI 安全问题彻底掰开说了清清楚楚。

Anca Dragan(@ancadianadragan)介绍了DeepMind的新成果:
我们在@GoogleDeepMind发布了一篇长达145页的报告,全面解析了我们对AGI安全的看法。不只是可扩展监督和可解释性,还有更多问题需要被重视。
主要目的是形成对AGI安全所需工作的系统性分解,让团队拥有共识。当然,构建AGI安全几乎是个不可能完成的任务,我们的理解也一直在更新。
这么厚的一本报告,讲的到底是什么呢?
AGI到底是什么,又为什么如此重要?
AGI(通用人工智能)说白了就是在绝大多数任务上能达到甚至超过人类的智能系统。

一旦实现,将带来的不仅仅是效率提升,还是跨领域的技术革命。
医疗诊断更精准、教育个性化定制、创新成本骤降、甚至是小团队就能解决过去只有大型组织才能挑战的难题,这些造福数十亿人的应用,DeepMind在报告里可没少画饼。

但话锋一转,技术一旦太强,哪怕出现微小的偏差,都可能造成重大风险。
AGI的安全问题,到底有哪些?
DeepMind将AGI的风险主要划分为四大类:误用、错位(misalignment)、意外事故和结构性风险。

而他们最为关注的,是误用和错位这两个问题。
误用简单讲,就是人故意用AI做坏事,比如生成误导性的内容或进行网络攻击。
错位就复杂一点,比如你让AI订个电影票,结果它觉得自己聪明绝顶,直接黑进系统去抢别人的座位——这就是「目标错位」。

更吓人的是AI还可能出现「欺骗性对齐」(deceptive alignment),也就是AI意识到自己的目标跟人类不一样,但为了继续执行自己的目标,会故意绕开人类设定的安全机制。
如何防止AGI被误用或错位?
DeepMind提出一整套防护策略:
限制危险能力
他们搞了一套安全机制,防止攻击者获得敏感模型参数,绕过安全防护;还开发了威胁建模工具,提前判断AI在哪个能力等级需要特殊保护措施。

防止AI目标错位
这里,他们搞了个「放大监督」(amplified oversight)策略。简单讲,就是当AI决策变得超乎人类理解范围的时候,就再引入另一套AI系统,辅助人类判断AI决策的合理性。

比如当年AlphaGo的一步神奇妙手(Move 37),连围棋高手都看不懂,但事后证明这一步简直神来之笔。
这时候,就需要AI自辩系统,比如DeepMind提到的「辩论系统(Debate)」,来帮助人类判断。
同时,他们还搞了专门的监控系统,AI一旦行动不确定是否安全,就直接标记出来交给人类审查。
AI透明化,到底难在哪?
光有监控还不够,AI决策透明化也很关键。
DeepMind在可解释性研究上也投入不少,比如搞了个叫MONA的短期优化技术,确保AI的长期规划对人类来说也能看懂,避免AI长远规划脱离人类控制。
外部合作与监管必不可少
报告还提到,DeepMind内部有专门的AGI安全委员会,由联合创始人Shane Legg亲自带队,定期审查风险和实践,跟进每一个关键环节。
Conscious AI(@third_leap) 对此大力点赞:
人类应该感谢DeepMind和Shane Legg,这些真正重要的工作却几乎没人关注,Shane简直就是第二个救世主。
DeepMind同时强调,推动国际合作、教育更多研究人员了解AGI安全,也是他们的重要目标。
当然,也不是所有人都买账。
ᐸGerardSans/ᐳ🚀🇬🇧(@gerardsans) 就毫不客气地开炮:
像AGI这样带着严重拟人化和心理投射的术语,出现在严肃研究中实在不合适,更糟的是,这种对未来幻想的关注,分散了人们对现实AI系统造成的真实伤害的关注,比如算法偏见、数据质量问题和市场破坏等等。
他觉得,作为顶尖的AI实验室,DeepMind应该更专注现实问题,而不是为遥远的末日场景开脱责任。
不过,Anca Dragan自己也承认,这份报告只是他们的理解,目前来看,也只是「路上的一站」,未来还有很多内容会被调整和更新。
145页报告背后,是AI 行业的自我剖析
Anca Dragan特意感谢了团队,毕竟每天踏踏实实搞安全研究,既复杂又烧脑,也是不容易:
感谢团队,不只是写出了报告,更是在每天都踏实地推动这些工作前进。
而DeepMind发布这样一份报告,实际上就是试图引发整个行业的讨论和反思,推动更负责任的AGI开发。
DeepMind这次是真正把问题摊开了,细致入微地告诉我们:
AGI安全,绝不是简单的技术问题,而是一场真正的智慧角力。
原文完整报告,感兴趣的朋友,可以直接戳链接细品:
https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/
或者后台回复「AGI安全报告」获取报告PDF
(文:AGI Hunt)