做出最好大模型的 CEO,不认为 Scaling Law 撞墙了

Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。

Cursor 因为这个模型找到了自己的 PMF,很多编剧和作者也发现它的语言表达能力也更好一些。

而 Anthropic 公司,今年发布的 Artifact、Computer Use 功能,都在某种意义上引领了 AI 开发的新方向。

Anthropic CEO Dario Amodei,无疑是当下最懂大模型的人之一,他和 Lex Fridman 在 11 月 12 日的这场对谈,回答了诸多大家对于大模型是否撞墙的疑问,以及 RLHF、Compuer Use 等模型训练和产品功能的讨论。

访谈很长,我们节选了 Dario Amodei 这部分,编译版本来自「海外独角兽」,Founder Park 略有调整。

一些值得关注的点:

  • Scaling law 目前尚未见顶,合成数据和思维链思考可能是解决数据限制的方案。
  • 模型的能力今年一直在进步,今年年初,SOTA 模型在 SWE-bench 上的表现也才只有 3% 到 4%,仅仅在 10 个月内,模型的表现就从 3% 提升到了 50%。再过一年,甚至都不需要一年,可能就会达到 90%。
  • 未来 post-training 环节的成本可能会超过 pre-training,只靠人类很难提高模型质量,需要更 scalable 的监督方法,
  • Anthropic 内部的工程师认为 Sonnet 3.5 是第一个能帮他们节省时间的模型,但团队目前并不打算开发自己的 IDE。
  • 出于安全性的考虑,Computer Use 目前不会直接面向 to C 开放,而是以 API 的形式发布。
  • 有时候模型的特性、不同模型之间的差异很难通过基准测试体现出来,因为这些特性不完全是能力本身,也可能是「模型更礼貌、更直率、反应敏捷、主动提问」等。
  • RLHF 更像是填补了搭建人类和模型之间沟通的鸿沟,就像我们身边总会有一些聪明但不善于表达的人一样,一个聪明的系统如果无法有效沟通也是不行的,RLHF 就是在填补这个鸿沟。
  • 用户对于「模型变笨」的感受也并不是说用户的感受是错觉,如果从模型角度其实并没有太大的变动的话,那么带来这种使用体验的原因可能是因为模型太复杂了、影响它表现的因素太多了,我们还没搞懂这些因素。
  • 从系统内部来看,模型设计的初衷并不是为了让我们理解,而是和人类大脑或者生化一样能够运行并且完成任务。模型设计出来并不是为了让人类可以打开看看系统内部是什么样的,然后理解它们是怎么运作的。
  • 对于感兴趣 AI 的人来说,直接上手玩模型很重要。放在 3 年前人们会从读最新的论文开始,但现在随着模型和 API 的普及,越来越多的人会直接去实践,我认为这种实践经验很重要。这些模型是全新的,没人真正理解,所以获得使用经验很重要。
  • ConstitutionAI(宪法 AI) 已经成为了我们提升模型的工具套件之一,既减少了我们对 RLHF 的依赖,还提高了每个 RLHF 数据点的利用率。并且还能与未来的推理 RL 方法产生很有意思的交互。

点击关注,每天更新深度 AI 行业洞察


01 

Scaling Law 没到上限,

合成数据/深度思考都是出路

Lex Fridman:今天我们处于 scaling law 的什么阶段?

Dario Amodei:我只能从我个人的经历来聊这件事。我在 AI 领域待了差不多有 10 年了,最早在 2014 年底接触到了 AI,一开始我们研究的是语音识别系统,那时候 deep learning 还比较新,虽然取得了不少进展,但大家普遍认为,我们才只做了一小部分,还没有找到成功的算法以及能和人类智能相匹配的模型,在算法方面还有很长的路要走。

某种程度上我很幸运,因为在我刚进入 AI 这个领域的时候就接触到了 RNN,也在想着能不能把模型规模做得更大、增加更多层,或者扩大数据量。在我看来,这些都是可以调节的参数变量。如果数据量增加、模型规模扩大、训练时间加长,模型的表现会越来越好。虽然当时没有很精确地做衡量,但我和同事都隐约感觉到,如果投入的数据、算力和训练量越来越多,模型的表现就会越来越好。

一开始我以为这种规律只适用于语音识别系统,只是这个领域的一个特性,直到 2017 年看到 GPT-1,我才意识到,语言其实是一个非常适合 scaling 的领域,因为有海量的语言数据可以用于训练。当时训练的模型还很小,1-8 块 GPU 就够了,现在要训模型已经需要数万张 GPU,很快就需要用到数十万张 GPU。

想到把语言和 scaling 结合到一起的人除了我以外还有 Ilya Sutskever,差不多同一时间也有不少人有类似的想法,比如 Rich Sutton 曾经写过的 The Bitter Lesson,Gwern 也写过一篇有关相关主题的文章。

The scaling law

所以对我来说,真正的转折点是在 2014 年到 2017 年之间,那时我真正确信:通过扩大模型规模,我们就能完成各种复杂的认知任务。

其实 scaling law 在发展的每个阶段都会有各种各样不同的质疑。刚开始我也觉得可能是我错了,比如 Chomsky 认为,尽管模型可以做到句法分析,但仍然无法理解语义,还有一种观点认为,句子可以是有意义的,但还是不能让段落连贯起来。

现在最新的质疑就包括,数据马上就要耗尽了,或者数据的质量不够高,或者模型不能进行推理等等。但面对这些质疑,我们每次都能找到解决的办法,或者持续做 scaling 就能解决问题。

直到现在,我仍然认为 scaling 有很多不确定性,我们只能通过归纳推理来判断未来两年是否会延续过去 10 年的趋势。这样的情况我已经见过太多次了,我认为 scaling 很可能还会继续下去,只不过其中的奥秘还没有办法完全用理论解释。

Lex Fridman:这里的 scaling 指的是计算规模更大、数据更多、算力更强吗?

Dario Amodei:是的,具体来说是 network、raining times 和 data 的线性扩展。这就好比一个化学反应一共有三种成分,如果想让反应顺利进行,就需要把这三种成分一起按比例加倍。如果只增加其中一个成分,其他试剂不够了,反应就会停止。如果能把所有成分都按照相同的比例增加,反应就能继续进行下去。

Lex Fridman:Scaling Law 是不是可以延展到其它更细节的环节?比如可解释性中也存在 scaling laws, 或者 post-train 也存在 scaling law?

Dario Amodei:是的,除了语言以外,到 2020 年底左右,我们又发现同样的规律在图像、视频、文本到图像、图像到文本、数学等模态下也都适用。在其他我们研究过的模型训练的环节中,比如 post-train 、新的 resigning models 上,也能看到类似的规律。

Lex Fridman:你是如何理解 scaling law 的?为什么会存在模型和数据的规模越大,模型就会越智能的规律?

Dario Amodei:物理学领域有两个概念分别是「1/f 噪声」和「1/x 分布」,意思是说如果我们把很多自然现象的过程叠加在一起,往往会呈现出高斯分布,但如果不同分布的自然过程叠加在一起,就会形成一种衰减的分布。

比如说,如果把探针接到电阻上,电阻的热噪声分布与频率成反比,随着频率的增加,热噪声的幅度会减小,这是一种自然的收敛分布。这个概念的实质是,我们可以观察一下由自然过程产生的很多事物,它们通常会有很多不同的尺度,不像高斯分布那样集中。比如在电气噪声中,大小不同的波动会呈现出衰减的 1/x 分布。

语言中的模式也是类似的。

首先是一些简单的规律,比如「the」这种词出现的频率比其他词更高,然后是基本的名词、动词结构,比如句子的主谓一致,再往上到句子结构,再到整段文字的主题结构。这是一个逐级递减的结构,可以想象成网络在扩展时,最先捕捉到的就是这些简单的关联和规律,然后才是长尾的其他规律。

如果语言模式的长尾分布像电阻热噪声的 1/f 分布一样平滑,那么随着网络规模的不断扩大,模型能捕捉到的分布中的规律也会越来越多。这种平滑性最终会反映在模型的预测能力和性能上。

语言本身是一个不断演化的过程,我们有常用词、少见词、固定表达和不常见的表达,有陈词滥调,也有新出现的流行词汇等等,所以我猜语言中这些想法的分布可能是一种长尾分布,当然这只是我的猜测。

是的,如果模型规模很小,它就只能捕捉到最常见的东西。比如一个小型的神经网络,它很擅长理解一个句子中的动词、形容词、名词等等,但要把这些词搭配起来形成有意义的句子结构,它就不能做出很好的决策。

如果把网络稍微做大一点,它就能更好地理解句子结构了,但是还是不能很好地理解段落。网络的容量越大,模型能捕捉到的模式就越稀有、越复杂。

Lex Fridman:Scaling 的上限在哪里?现实世界还有多少复杂的知识需要我们和模型去学习?

Dario Amodei:还没有人能给出明确答案。

我的一个直觉是,就达到人类的水平这个目标来说,scaling law 还没有遇到上限。人类能够理解各种复杂的模式,所以如果我们继续放大这些模型规模,开发新的训练方法并扩大它们的能力,至少能让模型达到人类的水平。问题是,模型是否有可能超越人类的能力,会不会比人类更聪明、更敏锐?这个答案在不同领域可能不一样。

比如我在 Machines of Loving Grace 这篇文章里面提到的生物学领域,今天人类才刚刚开始理解生物学的复杂性。

在斯坦福、哈佛、伯克利这样的学校,可能有一整个系的人都在研究免疫系统或代谢通路,但每个人都只理解其中很小的一部分,研究分工特别地专业化,而且他们也在尝试把互相之间的研究整合起来。所以,我直觉上会觉得,AI 智能还有很大的提升空间。

如果说到物质世界的材料,或者人与人之间的冲突,这些问题可能没有生物学那么难解决,但问题在于我们也只能做到这个程度,就好比语音识别能听清的程度是有限的。

所以某些领域的上限可能很接近于人类的水平,而其他领域的上限可能还远远没达到。只有真正搭建好了这些 AI 系统,才能知道上限到底在哪里,尽管我们可以推测,但不能确定,也很难提前知道答案。

Lex Fridman:在你提到的这些领域,AI 的能力之所以有限制可能是因为人类必须在整个链条里,而不是模型能力本身?

Dario Amodei:是的,理论上来讲很多技术,例如生物学的各种发明都可以快速发展,但是在真正应用到人身上之前,还需要经过临床试验体系,这其中既混杂着一些不必要的组织机制,也有确实有一些社会性的因素,关键在于怎么把它们清楚地区分开。

拿药物研发举个例子,我觉得我们的进展太慢、太保守了。但如果这个过程过于鲁莽,一旦出错就很可能就会危及人们的生命,所以这个领域的很多监管机构的保守在某种程度上确实保护了人们。所以关键是要找到平衡。

Lex Fridman:如果我们真的遇到了上限,或者 scaling law 放缓了,你认为原因可能会是什么?

Dario Amodei:我认为可能的原因有几种。我们这里所说的上限是指模型还没有达到人类的水平之前能力就触顶了的情况。

现在比较普遍的一种观点是,我们可能会面临数据不足的限制。我们的确有可能会用完数据,因为网络上的数据量是有限的,数据质量也是个问题,虽然网络上有数百亿的词汇量,但其中很多都是重复的,或者是为了 SEO 而产生的内容,甚至未来可能是 AI 自己生成的文本。所以我认为通过这种方式获取的数据是有限的。

不过,我们正在研究如何制造合成数据(synthetic data),通过模型生成与现有数据类似的新数据,甚至完全从零开始生成数据。我估计其他公司也在这么做,比如 DeepMind 就让 AlphaGo Zero 做 self-play,让它从完全不会下围棋到超越人类水平,过程中不需要人类的示例数据。

还有一个方向是 reasoning models,这类模型会进行思维链思考,也可以停下来反思自己的思维过程,某种程度上算是另一种结合了 RL 的合成数据。

所以通过合成数据和 resoning models 其中任何一种方法,都可以帮我们解决数据限制的问题。

我们也会发现,即使数据层面没有遇到调整,在模型的 scaling up 中,模型能力可能也不会一直进步,虽然长期过程中我们都观察到模型性能会随着规模变大不断进步,但可能会在某个时间停止,具体原因我们还不得而知。

一个可能的答案是我们要发明新的架构。过去也遇到过模型数值的稳定性等问题,当时模型性能看起来基本已经不再提升了,但实际上找到合适的解决方案后,性能又会继续提升。所以我们可能需要新的优化的方法或者技术来突破当前的瓶颈,虽然到目前为止我还没有看到这方面的迹象,但如果 scaling 的进展被明确证实放缓了,那么原因可能就是缺少新的架构。

Lex Fridman:算力会是 scaling law 的限制吗?

Dario Amodei:我估计目前主流模型公司的计算规模在 0.33~3 billion 之间,预计明年能提升到几十亿的规模,2026 年可能会超过一百亿,到 2027 年,可能会建设上百亿规模的计算集群。这一切都是可以实现的,因为业界有很强的决心,当然,即使达到千亿级别的计算规模,算力可能也还不够,我们要么需要进一步加大规模,要么就需要开发更高效的方法,改变现在的 scaling 曲线。

我之所以看好 powerful AI,其中一个原因就是如果我们继续沿着当前的曲线发展,模型很快就能接近人类的能力水平。在今天已经被开发出来的 reasoning models 中,有些已经达到了 PhD 或者专业的水平,就 coding 的能力来说,我们最新发布的 Sonnet 3.5 在 SWE-bench 上的表现已经达到了 50% 左右。

今年年初,SOTA 模型在 SWE-bench 上的表现也才只有 3% 到 4%,仅仅在 10 个月内,模型的表现就从 3% 提升到了 50%。再过一年,甚至都不需要一年,可能就会达到 90%。

OpenAI 的 o1 模型已经能够在研究生级别的数学、物理、生物等领域取得了类似的进展。如果我们继续沿着这条技能提升的曲线往前走,我认为几年内这些模型的专业能力就能超过人类的最高水平。但确实存在这条曲线并不一定会一直持续下去的风险。


02 

不同模型之间的差异,

基准测试很难测出来

Lex Fridman:今年 3 月你们发布了 Claude 3 系列模型,7 月份发布 Claude 3.5 Sonnet,最近又发布了 Claude 3.5 Haiku。Opus、Sonnet 和 Haiku 之间的区别是什么?

Dario Amodei:我们发布 Claude 3 系列的时候的出发点是,现在很多公司开发出了各种规模的模型,模型的性能也有强有弱。市场上既需要能力更强的大模型,这种模型可能运行得稍微慢一些,价格也会高一些,也需要响应快、成本低的模型,但它们的智能水平已经很不错了。对于一些复杂的分析,比如我想写代码、构思创意或者做一些创意写作时,就需要这种强大的模型。

但是在商业领域也有很多实际的应用,如果我要和网站交互,比如报税,和法律顾问沟通,或者分析合同等等,还有很多公司想在 IDE 上实现自动补全。这些场景需要的是能快速响应且应用广泛的模型。我们希望能够满足这一系列的需求,所以就有了这一系列模型。

这几个模型的命名参考了诗歌,最短的诗就是 Haiku,Haiku 是一个响应速度快、成本便宜的小模型,并且在同样的响应和成本条件下,模型表现最好。

Sonnet(十四行诗)是一种中等长度的诗歌,所以 Sonnet 的模型规模中等,比 Haiku 更智能,但速度稍微慢一些,成本价格也更高。Opus 代表的是,所以 Opus 是当时最大、最智能的模型。这就是当初起名时的思路。

当时的想法是,每一代新模型都应该进一步推动性能与成本达到平衡。所以我们发布 Sonnet 3.5 时,它的成本和速度与 Sonnet 3 差不多,但智能水平却超过了最初 Opus 3 的水准,它在各种应用上的表现都很出色,特别是在代码上。

最近我们也展示了 Haiku 3.5 的结果,我认为,虽然 Haiku 3.5 是最新的小模型,但是它的能力已经接近旧版的 Opus 3 这个最大的模型了。大体上,我们的目标是不断推进这条曲线,接下来我们也会推出 Opus 3.5。

每一代新模型都有自己的特点:新的数据和个性也会发生变化,虽然我们会尽量进行引导,但也并不能完全掌控它们的变化,所以模型改变的不仅仅智能能力。我们总是想要在某些方面做出改进,但是我们并不能预知或者检测到所有改变,所以这是一门不太精确的科学。在很多方面,这些模型的风格和个性更像是一种艺术,而非纯粹的科学。

Lex Fridman:从 Claude Opus 3.0 到 3.5,中间你们主要做了哪些事情?

Dario Amodei:有很多不同的流程。首先是 pre-train,这是标准的语言模型的训练过程,需要的时间比较长。现在 pre-train 需要数万张甚至多达数十万张 GPU 或 TPU,还会用到 Trainium 或者其他加速训练芯片,有时需要训练好几个月。

接下来是 post-train 阶段,在这个阶段我们会进行 RLHF 和其他类型的 RL,post-train 现在已经越来越重要了。

然后我们会和一些早期合作伙伴一起测试模型的性能和内外部的安全性,尤其会关注灾难性和自主性风险。我们还会根据我们自己的 responsible scaling policy 做内测。还会与英美的 AI 安全机构以及特定领域的第三方测试人员合作,对模型进行 CBRN(化学、生物、放射性和核风险)测试。虽然我们认为当前的模型还不构成这些风险,但每次开发新模型时,我们都会评估它的能力会不会更接近危险阈值。

之后还需要一些时间来完成 inference 和上线 API。要让模型真正能投入使用,确实需要很多步骤。当然我们也一直在努力让这些流程更高效。

我们希望既能严格进行安全测试,也希望这个测试尽可能自动化、快速进行,而不牺牲严谨性,pre-train 和  post-train 的过程也是一样。就像造飞机一样,既想让它们安全,又想让整个流程高效。这种在效率与安全之间的创造性张力,就是让模型能够运行的关键。

Lex Fridman:你们通过 RLHF 获取的偏好数据是不是又可以被用在之后的新模型训练上?

Dario Amodei:是的,旧模型的偏好数据有些时候会被用来训练新模型,当然,新模型上收集到的 RLHF 的数据的练效果会更好。

我们有一种叫做 Constitutional AI 的方法,这个方法不仅会使用到偏好数据,还会在 post-train 的过程中让模型和自身进行对抗训练,并且每天都会使用新的自我对抗的训练方法。所以 post-training 环节除了 RLHF 外还会用到很多其他方法。我觉得整个 post-train 正变得越来越复杂和精细。

Lex Fridman:新一代模型什么时候发布?比如 Claude Opus 3.5 、Claude 4.0 等等?

Dario Amodei:Claude 3.5 Opus 在我们的计划中,但发布时间还不确定。其实今天离我们发布 Sonnet 也才三个月多,没有多久,这个问题也反映了市场对模型发布节奏的预期。

其实随着模型的迭代,怎么给模型命名也是一个很有意思的挑战。可能在 1 年前,模型训练的重点在 pre-train 的时候,我们通常是从头训一个新模型,再用统一的命名体系来管理这些不同规模的模型,可能只要有一些新的改进,就可以升级成下一代模型。

但模型的命名和软件不一样,因为软件可以清晰地说「这是 3.7 版本,这是 3.8 版本」,但不同代际模型之间会很多环节都做出 trade-off,因此就会存在不同模型在推理、成本、规模上的差异。我觉得怎么区分这些不同的模型是所有人都很头疼的问题,目前看 Haiku、Sonnet 和 Opus 这样的命名方式的确是更清晰的。

因为有时候模型的特性、不同模型之间的差异很难通过基准测试体现出来,因为这些特性不完全是能力本身,也可能是「模型更礼貌、更直率、反应敏捷、主动提问」等。

我们有一个专注于 Claude 性格的团队,由 Amanda 领导,但这仍然是一门非常不精确的科学。我们经常会发现模型的一部分特性我们事先并不知道。事实上,就算和一个模型交谈一万次,也还是会发现一些之前没有见过的行为。

就和人一样,我可能和一个人认识了几个月,但我还是不知道他有某种技能或者特质。我们需要接受这个事实,我们一直在寻找更好的方法来测试模型,展示模型的能力,决定哪些性格特性是我们希望模型拥有的,哪些是我们不想要的。这种规范性的问题本身就非常有意思。

Lex Fridman:Claude 4.0 会在什么时候发布?

Dario Amodei:我不想现在就给下一代模型定义好它的名字,比如可能存在一些情况还是我们因为有了新的模型而决定重新开始,这个领域存在很多变化,但 scaling 的趋势还会继续下去。我们肯定会推出比现在的模型还要强大的版本,如果做不到这点,就说明我们公司彻底失败了。


03 

Anthropic目前不打算自己做 IDE

Lex Fridman:就 coding 来说,Sonnet 3.5 的能力提升非常明显,背后的原因是什么?模型能力「变得更好」除了体现在模型在基准测试上的得分更高之外,还意味着什么?

Dario Amodei:我们也观察到了这一点。Anthropic 内部一些很厉害的工程师之前并不觉得代码生成模型对他们有用,不论是我们自己还是其他公司的模型,他们倾向于认为这个能力对代码初学者更有用。但 Sonnet 3.5 发布以后,他们说,3.5 真的帮他们完成了一个原本需要花几个小时才能做好的工作,是第一个真正帮他们节省时间的模型。

所以模型能力是在不断提升,最新一版的 Sonnet 表现要更出色。从技术层面来看,我们在这个过程中作了全面的改进,包括 pre-train、post-train,以及各种评估等等所有环节。

SWE-bench 基准测试模拟了真实的场景,根据当前代码库的状态,要求模型根据语言描述实现新功能。我们内部也有类似的基准测试可以测量同样的任务,我们允许模型自由发挥、运行或编辑任何内容,然后评估它完成任务的效果。这个基准测试的成功率最初只有 3%,现在提高到了 50% 左右。

所以我觉得,基准测试的成功率的确可以提高,但是在不针对特定基准过度训练或优化的情况下达到 100% 的成功,才能说明编程能力真正取得了进步,如果基准测试的成功率能达到 90%-95%,就说明它可以自主完成大部分软件工程任务了。

Lex Fridman:你觉得编程作为 AI 开发的核心环节会发生哪些本质上的变化?

Dario Amodei:我认为编程会是变化最快的领域之一,原因有两个。

第一,编程本身就和 AI 的构建过程密切相关。越是靠近 AI 开发过程的技能,越容易受到 AI 的影响,而那些较远的领域,比如农业,我相信 AI 最终一定会改变农业,在某些方面可能已经开始改变了,但因为农业离 AI 开发人员太远,这个过程会比较慢。相比之下,编程是 Anthropic 和其他 AI 公司大多数员工的基本技能,所以变革会来得更快。

第二,无论是在模型训练还是应用阶段,编程都能形成闭环。模型可以编写代码、运行这些代码、分析结果并进行反馈。相比硬件或生物学等领域,这种闭环能力会让 AI 在编程领域的进步速度更快。

就实际编程任务来说,从今年 1 月到 10 月,模型的能力从 3% 提升到了 50%。我们正处在 S 曲线快速增长的阶段,由于上限是 100%,增长速度会逐渐放缓。我估计再过 10 个月左右,我们可能就能达到至少 90% 的水平。我个人猜测到 2026 年或 2027 年,AI 可以胜任大多数程序员日常的编码任务。

尽管如此,人类在编程中的比较优势依然存在。当 AI 能够完成程序员 80% 的工作时,尤其是根据给定的 spec 进行编码,到那时人类会转向发挥更大价值的领域,比如 high-level 的系统设计、应用架构评估、设计和用户体验等方面。

当然最终 AI 也能胜任这些工作,不过在相当长的一段时间内,人类仍然能在某些关键环节发挥作用,这些环节会扩展并占据程序员的全部工作内容,从而提高整体生产力。

就和文字处理的演变一样,过去写信和排版都很困难,但随着文字处理器和计算机的出现,这些工作就变得容易了,人们也能把精力集中在创意和想法上。这种比较优势的逻辑会让一些小任务扩展成大任务,创造新的任务来提高生产力。我认为这种比较优势的逻辑在未来会继续发挥作用。

当然,终有一天 AI 会在所有方面都超越人类,到那时这个逻辑就不再适用了,那时人类需要思考如何共同应对这种情况,这也是除了滥用风险和自主性之外我们每天都在思考的一个问题。但在近期甚至是中期,也就是 2-4 年内,我认为人类既然会扮演重要的角色。编程的性质会改变,但编程作为一个职业不会消失,只是会从逐行编写代码转向更宏观的工作。

Lex Fridman:未来的 IDE 会是什么样的?每个垂直领域都会有特定的工具与 AI 系统交互来提高效率,Anthropic 会自己做 toolings 吗?

Dario Amodei:我完全相信 IDE 还有很多待开发的潜力,因为现在的模式还停留在我们和模型对话的阶段。但 IDE 在静态分析方面已经很强大了,很多 bug 在写代码之前就能通过静态分析发现。IDE 还擅长运行特定任务、组织代码、测量单元测试覆盖率等。

现在再加上模型能够编写和运行代码,我相信在接下来的一两年里,即使模型本身的能力不提升,我们也能通过 IDE 显著提高工作效率,帮助开发者避免很多错误,完成大量基础工作。我们现在才刚刚开始探索这个领域。

但对于 Anthropic 很难说以后会怎么样,目前我们并不打算自己开发 IDE。我们为 Cursor、Kognition 这样的公司,以及安全领域的其他公司提供 API 支持,让他们在我们的基础上开发工具。

我们的理念是百花齐放,既然我们内部没有资源去尝试所有这些方向,那不如让客户去尝试,看看谁能成功。也许不同的客户会在不同领域取得成功。所以虽然我认为这个方向很有前景,但 Anthropic 现在、可能以后也不会急着在这个领域和其他公司竞争。

Cursor 给到的体验很惊艳,虽然作为 CEO,我现在编程的机会不多,但我觉得如果 6 个月后我重新回去编程,可能会感觉完全不一样了。


04 

Computer Use 暂时不会向 ToC 开放

Lex Fridman:你们发布的 Computer Use 已经具有 AI Agent 的特性了,这个功能是如何实现的?未来会发展到什么程度?

Dario Amodei:其实原理并不难。在今年 3 月发布 Claude 3 后,Claude 就具备了分析图像并输出文本的能力。我们新加入的功能是,电脑截图也可以成为分析的图像,我们让模型可以通过点击屏幕上的某个位置或者按下按键来执行操作。事实证明,不需要太多额外训练,模型可以很好地胜任这样的任务。

Compute Use 是一个很好的关于泛化的例子。科幻小说家海因莱因说过「If you can get your ship into orbit, you’re halfway to anywhere」,一个强大的 pre-train 模型就相当于在 AI 智能的空间里也走完了一半的路程。所以对于 Claude 来说,要实现这种功能并没有太大难度。

我们可以把 Compute Use 设置成一个循环:给模型一张截图,告诉它要点击的位置,然后再给它下一张截图,告诉它接下来要点击的位置,这样就和模型形成了一种类似 3D 视频互动的效果。Claude 可以执行很多任务,在 demo 里,它能填表、浏览网站,甚至能打开各种程序,而且支持 Windows、Linux 和 Mac 等各种操作系统。我们看到 Replit 已经在这些系统上做了各种 demo。

虽然理论上通过 API 也能实现对计算机的操控,但使用截图能大大降低使用门槛,很多人要么无法访问 API,要么就是花的时间太长,而截图是一种通用界面,操作起来更容易。

我预计这个功能的使用门槛还会进一步降低,当然,现在的模型还有不少需要改进的地方,我们在博客中也很坦诚地说过,模型会出错、会点错位置,所以我们提醒用户,不要让模型长时间不受限制地操作电脑,而是要设置好边界和保护措施,这也是我们选择先以 API 的形式发布这个功能,而不是直接向 To C 开放的一个原因。

因为模型能力越来越强,我们必须要认真思考如何安全地使用这些能力,防止被滥用,在模型的这些能力还比较有限的时候就发布它,可以帮我们做好这方面的准备。

Lex Fridman:Compute Use 的应用场景真的非常广,未来要让这个功能更好地运作,在 pre-train 基础之上还需要做哪些工作?比如进一步做 post-training、RLHF、supervised fine-tuning 或者围绕 agent 场景做 synthetic data 等等?

Dario Amodei:从 high level 的层面来讲,我们会继续在模型性能提升上做投入。以前模型在基准测试的表现可能只有 6% 的成功率,现在我们的模型已经可以做到 14% 甚至 22%,我们的目标是让模型达到人类可靠的水平,也就是 80% 甚至 90%。模型现在的发展曲线和在 SWE-bench 上的表现类似。我预计再过一年左右,模型的可靠性会非常高。

Lex Fridman:要让模型达到 90% 的人类水平,是延续现有的训练方法,还是需要为了 Computer Use 这个功能专门进行训练?

Dario Amodei:要看如何定义「专门训练」。但总的来说,我认为我们用于训练当前模型的技术,比如代码、模型、图像输入以及语音等技术,只要在同样的方向上深入探索,就能帮我们继续 scale up。

Lex Fridman:Compute use 赋予了 Claude 任务执行的能力,虽然模型能实现很多强大的功能,但也可能会带来很多风险?

Dario Amodei:是的,我们非常清楚这一点。从我的角度来看,Computer Use 并不是一种全新的能力,它更多是在帮助模型发挥和应用它已有的能力。从我们的 RSP 框架来看,模型目前做的这些事情本身并没有增加任何风险。

但随着模型变得越来越强大,在它达到 ASL-3 或 ASL-4 级别、具备更高的认知能力时,可能会不受限制,更加让人担忧,所以我们未来会继续在 RSP 中测试这种交互模式。我认为最好是在模型能力还不足够强大的时候就开始了解和探索这个功能,而不是等到它真的很强大的时候再来处理。

是的,我们也确实考虑过类似垃圾信息、验证码绕过等问题。因为新技术刚出来的时候,最常见的滥用形式往往是一些简单的骗局和诈骗。

Lex Fridman:你们怎么看 sandboxing 这个思路?沙盒环境下的任务难度有多大?

Dario Amodei:我们在训练过程中是有沙盒环境的,比如训练时我们不会让模型直接接触互联网。这种做法是为了避免模型在训练期间意外影响现实世界。实际部署时是否需要沙盒环境,通常取决于具体的应用。在实际部署模型的时候,需要根据具体应用来决定。有时候我们希望模型能在现实世界中做一些事情。但当然我们会在外部设置一些保护措施,比如不允许模型从电脑或网络服务器上移动任何数据。

不过如果模型达到 ASL-4 级别,这些预防措施可能就不太适用了。在 ASL-4 阶段,我们要担心的是模型可能聪明到能突破沙盒的限制。在这种情况下,我们就需要依赖机制可解释性。如果我们要设置一个沙盒,它需要是数学上可证明的。这与我们今天处理的模型是完全不同的世界。

只是构建一个 ASL-4 级别的 AI 系统很难逃脱的沙盒不是唯一的方法。我与其想方设法避免模型突破限制,不如从设计上就把模型设计好。我们可以建立一个循环,通过观察模型内部来验证它的特性,然后进行迭代并改进。

我们在这个过程中肯定犯了很多错误。不存在什么完美的组织,Anthropic 从员工到管理层都有不完美的地方,但不完美并不意味着就要放弃。


05 

RLHF 并没有让模型变得更聪明,

只是更好沟通

Lex Fridman:现在 post-training 涉及的因素很多,有 supervised fine-tuning、RLHF、还有 RLAIF 下的 Constitutional AI、合成数据等。在 Claude 的实践中?pre-train 和 post-trainin 分别占了多大比重?

Dario Amodei:首先,这一点我们自己也没法精确判断。当我们看到一个模型的能力很出色的时候,通常很难判断这是 pre-train 还是 post-trainin 的结果,即便我们开发了一些方法做出一些区分,但这些方法还不够完善。

其次,我认为 Anthropic 的优势之一就是 RL,我们的 RL 可能是做得最好的,当然这只是我个人的判断,我之所以这样说不是因为我们有什么别人没有的秘方,而是因为我们在一些环节做得更好,比如改进 infra、获取更高质量的数据、数据筛选做得更好,或者是更好地结合了这些方法。

所以说到底都是些没什么特别的实践和技术积累,所以如果要我回答「怎么能训出更好的模型」这个问题时,我更倾向于把它类比成设计飞机或汽车的过程,这件事不是说有了图纸就能造出下一代飞机这么简单。也许有了图纸可以让我们造出下一代飞机,但在整个过程中,我们的形成思维方式、以及这种思维方式的传承,比我们能发明的某个具体组件更关键。

Lex Fridman:回到具体的技术,在你看来为什么 RLHF 的效果会这么好?

Dario Amodei:Scaling law 的一个推论是,如果针对某个目标投入足够的算力进行训练,就能达到目标。从这个角度看,RLHF 很擅长让模型做人类想要它做的事,或者更准确地说,是让模型做出那些符合人类审查者认为的更好的表现。这种方法从能力和安全角度来看都不够完美,因为人类可能不能准确地判断出模型的真实意图,而且人类当下的偏好也不一定就代表长远的需求。

这里面有很多细节,但模型确实很擅长满足人类表层的需求。而且实际上不需要投入太多算力,这要归功于另一个特点:一个强大的预训练模型就相当于我们已经走完了一半的路程。有了预训练模型,就拥有了足够的表征,可以引导模型朝着目标方向发展。

Lex Fridman:你认为 RLHF 是从本质上让模型更聪明了,还是说只是让人类觉得模型更聪明了?

Dario Amodei:我觉得 RLHF 并没有真正意义上模型变得更聪明,但也代表这是停留在表面上的聪明。RLHF 更像是填补了搭建人类和模型之间沟通的鸿沟,就像我们身边总会有一些聪明但不善于表达的人一样,一个聪明的系统如果无法有效沟通也是不行的,RLHF 就是在填补这个鸿沟。

当然,RLHF 并不是唯一在用的 RL 方式,未来还会有更多的 RL 的方式。RL 很有可能让模型变得更聪明、推理能力更强、运行更高效,甚至培养出新的技能。在某些情况下也可以借助人类反馈来实现。不过,虽然我们正在快速向这个方向发展,但是当前的 RLHF 还达不到这种水平。

Lex Fridman:如果从「有用性」的角度来看,RLHF 确实提升了模型的有用性?

Dario Amodei:Leopold 在自己的文章中提到过一个「unhobbling」的概念,RLHF 可以提高这种能力。Unhobbling 的意思是,模型原本受到各种限制,但通过不同的训练可以解除这些限制。我很喜欢这个词,RLHF 在某些方面解除了模型的限制,但在其他一些方面,模型还是受限,还需要进一步突破。

Lex Fridman:从成本角度,pre-training 是最贵的部分吗?未来 post-training 的成本占比会不会超过 pre-training

Dario Amodei:目前来看,pre-training 的成本还是大头,但我接下来具体会怎么变化,但我能预见未来某个时间点后,post-training 的成本可能会超过 pre-training

Lex Fridman:在你预见的这个时间点上,post-training 的成本主要会来自人类还是 AI?

Dario Amodei:我觉得只靠人类很难提高模型质量。任何需要大量算力且依赖人类的方法,最终都需要依靠某种更 scalable 的监督方法,比如辩论(debate)或者迭代放大(iterated amplification)。


06 

模型不会「变笨」,

只是对提示词太敏感了

Lex Fridman:Reddit 上有一个讨论度很高的问题,有不少用户说他们觉得 Claude 越来越笨了,你怎么看这个问题?这种抱怨属于某种用户心理的社会现象,还是说 Claude 的性能确实会下降?

Dario Amodei:不只是 Claude,几乎每个大公司的 foundation models 都收到过类似的抱怨,包括 GPT-4 和 GPT-4 Turbo。背后的原因有几点:

第一,模型的 weights 也就是大脑是不会随意改变的,除非我们推出一个全新的模型,从技术上来说,随意更换模型版本是不现实的。

其次,从 inference(推理)的角度来看,修改模型的 weights 带来的后果其实很难控制。比如说,早期的 Sonnet 往往会输出很多「certainly」这样的词,如果我想通过 fine-tune 减少模型用这个词的频率,这个过程就有可能同时改变其他 100 处模型的表现。

所以我们如果我们要对模型作出调整,其实是一整套复杂过程,包括大量测试以及早期用户反馈。我们也从来不会在不通知用户的情况下调整模型的 weights,在目前的架构下这么做也没有必要。

当然我们确实会做一些其他的调整,比如 A/B 测试,但这种测试通常只在新模型发布时进行,测试持续的时间也很短。比如在新版 Sonnet 3.5 上线的前一天,就有用户反映觉得 Sonnet 的性能好像提高了,这是因为在发布前的 1-2 天,确实有一小部分用户参与了我们的 A/B 测试。我们偶尔也会调整系统的 prompt,这也会产生一定的影响,但不太可能导致模型变笨。

用户对于「模型变笨」的感受也并不是说用户的感受是错觉,如果从模型角度其实并没有太大的变动的话,那么带来这种使用体验的原因可能是因为模型太复杂了、影响它表现的因素太多了。比如,「执行 X 任务」和「可以执行 X 任务吗?」这两个问题,模型的回答可能就不一样。在跟模型互动时,如果稍微改变一下措辞,这样的细微的变化都可能得到很不一样的结果。

这其实也说明我们和其他模型公司都还存在不足,因为模型对措辞的细微变化太敏感了,而我们对这些模型的工作原理还缺乏深入理解。如果我今天用一种方法跟模型对话,第二天稍微换个说法,得到的结果可能就会不一样。

另一种可能是,模型的这种变化也很难量化。人们在接触一个新模型时肯定是很兴奋的,但随着时间推移,用户会越来越注意到它的局限性,这可能也是一种心理作用。总的来说,除了少数特例以外,模型基本没有太大变化。

Lex Fridman:Reddit 上还有个问题是对 Claude 性格的抱怨,比如「Claude 像一个道德感超强长辈,把它的世界观强加给付费用户」、「为什么要把 Claude 设计得这么爱道歉」等。

Dario Amodei:关于这个问题,我的想法是,首先,人们在 Reddit 和 X 上发布的内容,和我们从统计数据上显示的用户真正关心并促使他们使用这些模型的实际需求之间存在很大差偏差。

大多数用户其实更关心模型 coding 的问题,比如模型没有写出完整代码,或者即使是最头部的模型写的代码还是不够好。但也确实有一部分用户会对模型的一些行为感到不满,比如不该拒绝回答的时候拒绝、过分道歉、以及一些让人烦的语言习惯等等。

第二点我想强调的是,所有这些现象其实都只是因为我们目前很难在所有情况下都控制好模型的行为。要想让模型少道歉,并不是简单调整一下模型就可以做到的,虽然我们可以在训练环节中加入「少道歉」这种指令,但这样一来模型在某些情境下可能会变得过于粗鲁或自信,从而可能会误导用户。

所以这里面要做很多取舍。比如之前有段时间,不只是我们的模型,其他模型也过于啰嗦,总是自言自语。要让模型不那么啰嗦,可以在模型输出时间过长的时候对它进行惩罚,但这么做的后果是,由于模型学会了节省表达,在写代码时可能会直接输出「剩下的代码就在这里」,或者「剩下的由你来完成」,这就导致了人们说的模型在编码时会偷懒的情况。

这也是为什么我特别关注 AI 系统的 grand alignment(整体对齐),因为这些系统实际上很难预测,也很难精确地控制。我们今天遇到的「改动一个地方,另一个地方就会变差」的问题,其实也是未来 AI 系统控制难题的一个缩影,值得我们现在开始研究。

模型很容易走向极端,而且这个问题涉及多个维度。我认为,塑造模型性格的这个问题很难解决,虽然我们已经是所有 AI 公司里做得最好的了,但离做到完美还很远。

如果我们能在当前这个可控的环境下处理好这些问题,减少误报(False Positive)和漏报(False Negative),那么未来在面对更大的挑战时就能做得更好。到那时,我们面临的问题是:这些模型会变得高度自主吗?会不会制造出非常危险的东西?会不会自主建立公司,这些公司是否合规?所以我认为虽然现在我们面对的问题很棘手,但也是为未来做准备的好机会。

Lex Fridman:如果要大规模地收集用户反馈,了解用户痛点最好的办法是什么?是内部测试,还是特定的群体测试、A/B 测试等?

Dario Amodei:通常来说,我们内部会对模型进行测试,Anthropic 差不多有 1000 名员工,他们都会尝试用各种方法与模型互动,看能不能找到问题。我们有一套评估机制,比如模型是否在不该拒绝回答的地方拒绝。我们甚至专门有个「certainly」评估,因为模型有段时间有个烦人的毛病,不管回答什么问题都会加上「certainly」。

所以我们设置了这个「certainly」评估来检测模型说「certainly」的频率。但还是类似打地鼠,因为模型可能会把「certainly」换成「definitely」。

所以每次在增加新的评估标准时,之前的所有内容也还会继续评估。现在这样的评估已经有几百个了,但我们发现没有什么能替代真人测试。

这一点和普通的产品开发流程一样,除了内部测试,还会进行外部的 A/B 测试,有时也会外包给测试人员来和模型互动并进行测试。但即使做了这么多测试,模型还是不完美,依然会有一些不太理想的行为,比如它还是会在不该拒绝的地方拒绝用户。

我们在试着解决这个问题,避免让模型做出公认的坏事。比如,每个人都同意模型应该拒绝回答虐待儿童等不当的内容,但我们也希望它不会用一种又蠢又笨的方法来拒绝。要尽可能划分精确这个界限仍然是个挑战,这个问题确实很复杂,未来想要控制更强大的模型就会面临更大的挑战。


07 

模型设计的初衷

并不是为了让人类去理解

Lex Fridman:你怎么看今天的模型竞争格局?Anthropic 要如何和 OpenAI、Google、xAI 和 Meta 竞争?

Dario Amodei:Anthropic 提出过一个叫做「Race to the Top」的理论,目的是通过树立榜样来推动其他参与者朝正确的方向努力,要创造一个环境,让所有人都能成为好人。

举几个例子,Anthropic 创立初期,我们认为机制可解释性(mechanistic interpretability,MechInterp)可以帮我们理解 AI 模型内部的运作情况、进而对模型的安全性和可解释性很有帮助,所以我们的一个联合创始人 Chris Olah 带领了团队投入到这个领域。

这个研究在前面 3-4 年里完全没有任何商业化的应用,甚至到现在也还没有。我们目前已经做了一些早期的 beta 测试,未来可能会有实际应用,但整个周期非常长。

我们对机智可解释性的研究期间一直是公开进行的,也分享了研究成果,之所以这么做是因为我们认为这个研究可以让模型更加安全。

有意思的是,在我们做了这个研究之后,其他公司也开始跟进了。有些是受到了我们的启发,有些是担心如果其他公司这样做看起来会更负责任,他们也想成为看起来负责任的公司,毕竟没有人想成为一个不负责任的角色,所以他们就都开始了这项研究。对那些来 Anthropic 应聘的人来说,可解释性往往是吸引他们的一个点,我会鼓励他们告诉别的公司他们选择 Anthropic 的理由。

很快其他公司也成立了可解释性团队,因为其他公司也在做同样的事情,这会削弱我们的竞争优势,但这对整个行业是有利的,所以我们必须找到一些新的东西,尝试做一些别人没有做过的事。这么做的目标大体上就是强调「do the right thing」这一点。

Lex Fridman:你怎么看机制可解释性和可能带来的影响?

Dario Amodei:我觉得就能力来说,我们还处在很早期的阶段,但我们已经能深入系统内部,理解内部的情况。

Scaling Law 给人 的感觉像是有某种规律在推动这些模型不断提升性能,但机制可解释性是和 scaling law 不一样,从系统内部来看,模型设计的初衷并不是为了让我们理解,而是和人类大脑或者生化一样能够运行并且完成任务。模型设计出来并不是为了让人类可以打开看看系统内部是什么样的,然后理解它们是怎么运作的。但我们在打开往里看的时候,确实发现了一些意想不到的有意思的东西。

我们曾经发布过一个 Golden Gate Bridge Claude 的实验。原因是我们发现在 Claude 的神经网络中,其中一层的一个方向和金门大桥有关。于是我们调高了这个方向的强度,把  Golden Gate Bridge Claude 作为 demo 发布了出去。这个 demo 只推出了几天,带点开玩笑的性质,但也展示了我们的研究方法。

我们可以问这个 demo 任何问题,不管问它什么,它都会和金门大桥挂上钩。比如问它「你今天过得怎么样」,它可能会回答:「我感觉很放松,就像金门大桥的拱门一样宽广」。

来源:Anthropic


08 

如何成为优秀的 AI 工程师?

去上手而不是看论文

Lex Fridman:组建一支优秀的 AI researchers 和 AI 工程师需要哪些条件? 怎么看人才密度和人才规模?

Dario Amodei:每过一个月,我都会发现我的这个观点越来越重要。我们可以做一个思维实验。假设你有一家公司,有两种方案:第一种是你有一个 100 人的团队,每个人都非常聪明有动力,认同公司的使命,第二种是你有一个 1000 人的团队,其中有 200 人和第一种团队的人才素质相当,另外 800 人就是从大科技公司随机挑选的员工。你会选择哪一种?

从人才规模上来看,1000 人的团队拥有的顶尖人才更多,但人才密度就要低很多。这里的区别在于,如果每个优秀的人才身边都有同样优秀且专注的同事,就能给整个团队定下基调,团队中的每个人都会因此受到鼓舞,彼此信任。就像 Steve Jobs 说的,A 级的人才想要看到周围同样都是 A 级人才。

相反,如果一个团队有 1000 人或 1 万人,但因为没有严格的人才筛选机制,而是随机招人,因而就需要设置大量流程和规则,因为人们之间缺乏充分信任,并且还存在很多办公室政治需要调解,这些都会降低组织的运转效率。

Anthropic 现在有将近 1000 人,我们一直在努力让尽可能多的员工都具备顶尖的才能和技能。这也是我们最近几个月放慢招聘速度的其中原因之一。Anthropic 的员工从今年初到 7、8 月增加了 500 人,从 300 人增长到了 800 人,但最近 3 个月只增加了 100 多人左右。我觉得 1000 人是个拐点,我们需要更谨慎地考虑团队增长。

从创立初期开始,我们就持续招聘了很多物理学家,理论物理学家的学习能力特别强。即便是最近,我们在招聘 researcher 和 software engineer 时都保持着很高的 bar,筛选过程非常严格。我们已经招聘了很多资深人才,其中有些来自这个领域的其他公司,如果不注意确保所有人都有统一的目标,在我们从 100 人增长到 1000 人,再到 1 万人的这个过程中,很容易出现失控。

如果一个公司的团队有许多都各自为政,各自只关注自己的目标,那么这个公司就很难完成任何事情。但如果每个人都能看到公司层面更大的目标,相互信任彼此,专注于做正确的事情,这本身就是一种强大的力量,就可以克服几乎所有其他不利因素。

Lex Fridman:在你的经验中,如何成为一位优秀的 AI researcher 或者 AI 工程师?

Dario Amodei:Do something new, think in some new direction,在 coding 和 research 领域,尤其是在 research 方面,最重要的品质就是保持开放的心态。

我认为我在 AI 研究早期与众不同的地方在于,我愿意用新的视角看问题。当人们说他们还没有合适的算法,还没找到正确的方法时,我会想,这个神经网络有 3000 万参数,如果给它 5000 万参数会怎样?我会画些图表看看。这是一种基本的科学思维方式,如果我看到一个可以改变的变量,我会想如果它改变会发生什么,会想尝试不同的方案并绘制图表。改变参数数量并不需要 PhD 水平的实验设计才能做,这件事情很简单。

对于感兴趣 AI 的人来说,直接上手玩模型很重要。放在 3 年前人们会从读最新的 RL 论文开始,但现在随着模型和 API 的普及,越来越多的人会直接去实践,我认为这种实践经验很重要。这些模型是全新的,没人真正理解,所以获得使用经验很重要。

另外,还有很多领域还没探索。比如机制可解释性仍然是个新方向,与其研究新的模型架构,不如研究这个。虽然现在机制可解释性比以前更受关注,可能有 100 人在做,但毕竟还没到 1 万人的规模。

我认为 long horizon learning 和 long horizon tasks 也还有很多工作要做。在评估方面,特别是对于在现实世界中运行的动态系统的评估,我们仍然处于早期阶段,在 multi-agent 领域也有一些工作要做。


09 

宪法 AI 可以实现模型训练自己

Lex Fridman:Constitutional AI(宪法 AI)是你们在 2022 年 12 月提出的概念,它到底指什么?

Dario Amodei:RLHF 的基本原理是,让模型先生成两个不同的回答,然后让人类根据「你更喜欢哪个回答」或者「请按照 1 到 7 的评分标准评价这个回答」来对这两个答案进行比较。这个方法的问题在于,因为需要让非常多的人类参与进来,并且这些反馈相反主观,所以可能导致的结果是,我们可能并不清楚自己想要模型做什么,最终只是知道了这 1000 个人中大家想要模型做什么的平均意图是什么。

所以接下来我们就产生了 2 个问题:

1)能不能让 AI 系统自己判断哪个回答更好?也就是向 AI 展示两个回答,让它进行评价?

2)AI 应该用什么标准来判断?

于是就有了 Constitutional AI 的概念。可以理解为,我们有一份文档,上面列出了模型应该遵循的原则,也就是「constitution」,AI 系统会先阅读读这些原则,同时也会对理解具体的环境和回答,在此基础上,对 AI 模型的表现作出判断。AI 作出的判断又会被输入到所谓的偏好模型 (preference model) 中,偏好模型又会再反过来指导模型变得更好。这本质上是一种 self-play,用模型训练它自己。

Constitution 里面的原则人和 AI 都可以理解,具有很好的可解释性(translatability)和对称性(symmetry)。在实践中,我们会同时使用 Constitutional AI、RLHF 和其他方法。所以 ConstitutionAI  已经成为了我们提升模型的工具套件之一,既减少了我们对 RLHF 的依赖,还提高了每个 RLHF 数据点的利用率。并且还能与未来的推理 RL 方法产生很有意思的交互。所以虽然它我们训模型会使用的工具之一,但我认为是非常重要的一个。

Lex Fridman:ConstitutionAI 逻辑下,AI 需要遵守的原则由谁来制定?

Dario Amodei:我可以从实操和更 high level 抽象的角度回答这个问题。

在实操上,因为模型会被各种用户使用,所以我们可以允许模型拥有一些专门的规则或原则,除了在用户看不见的地对模型层面进行一些定制化的 fine-tuning、符合特定需求之外,我们也讨论过「更明显的方法」,比如人们能够明确地把特定的原则植入模型。所以从这个角度上,「谁来制定原则」这个问题的答案因人而异,比如客服人员和律师的行为准则就很不一样。

但从更深层次来说,模型必须遵守一些基本原则,很多原则是普适性的,比如没有人希望模型带来 CBRN(化学、生物、放射和核)风险,还有一些社会基本原则等,但除此之外,其他情况就很不确定了,我们的目标是让模型尽量保持中立,不表达特定立场,而是作为明智的 agent 或者 advisor 帮助用户思考问题,提供各种可能的考虑因素,而不表达强烈或具体的观点。

Lex Fridman:OpenAI 提出过「Model Spec」这个概念,明确定义了模型的一些目标,并用 A/B 测试等具体例子说明模型应该如何表现,你怎么看?John Schulman 在加入 Anthropic 前也参与了这项工作,未来 Anthropic 也会发布类似的东西吗?有价值的方向吗?Anthropic 也会发布类似的 model spec 吗?

Dario Amodei:我觉得这是个很有价值的方向,model spec 和 Constitutional AI 有很多共同点,这也是一个 race to the top 的例子。我们发现了一个更好、更负责任的做事方式,这开始是一个竞争优势,然后其他人发现了这种方法的优点,也开始采用。

每家公司实现这些理念的方式都不一样。OpenAI 的 model spec 中有一些 Constitutional AI 没有的内容,我们可以学习借鉴这些内容。总体来说,这是我们希望看到的行业健康发展的模式。


10 

未来 5 年,

AI 的风险是被人利用而不是自主意识

Lex Fridman:能解释一下你们的 responsible scaling policy 和 AI safety level standards(ASL levels)吗?

Dario Amodei:虽然我在 Machines of Loving Grace 中觉得我对于模型的未来充满期待,但这件事不影响我持续担心这些模型的风险,模型能力越来越强的时候,就更应该讨论它可能的风险。

总体上,模型可能带来的风险中有两类最值得关注。

第一类我把它叫做 catastrophic misuse,即在网络安全、生物学、放射性、核武器等领域滥用模型,如果真的出问题,可能会对数千人、甚至上百万人的生命造成威胁。这类风险是我们优先防范的风险。其实,如果观察一下历史上曾经做过坏事的人,会发现「聪明又受过高等教育的人」和「想要做极端恶行的人」这两类人之间的重叠度很小,比如很少会出现一个绝顶聪明的 PhD,有很好的工作、社会地位但决定冒险去做坏事的情况。但如果 AI 成了更智能的 agent,有可能会打破这种现状。

虽然我对此很担忧,我相信这些担忧是可以预防的。但我想强调的是,和 Machines of Loving Grace 描绘出的图景不一样,这些重大的风险依然是存在的。

第二类是 autonomy risks,随着我们给模型越来越多的自主权,尤其是让它们监督更广泛的任务,比如编写整个代码库,甚至未来某一天可能实际运营整个公司,它们的自由度会越来越大。问题是它们真的在按我们的意愿做事吗?

想要完全理解它们在做什么都很难,更别说控制它们了。就像我说的,我们现在已经发要精确划分模型该做什么不该做什么其实很难。如果偏向一边,模型会做出一些惹人烦又没有用的行为;如果偏向另一边,又会出现其他问题。每次一个问题解决了,其他问题又会随之出现。

不过我们在解决这些问题上正在不断进步,我不认为这个问题无解,就像飞机安全、汽车安全或药品安全一样是一门科学,我们并没有遗漏什么重要的东西,只是需要提高对这些模型的控制能力。

这就是我最担心的两类风险。

我们的 responsible scaling 计划主要针对的就是前面这两类风险。每当我们开发新模型时,都会测试它存不存在这两种潜在的风险。

现在我们面对的情况是,AI 系统还没有强大到能造成灾难性后果,我不确定它们未来会不会达到这种程度,有可能永远都不会达到,这还是未知数。但是值得注意的是,现在的风险已经足够高了,我们应该立即采取行动,因为模型发展的速度实在太快了。

在最近发布的最新版的 RSP(Responsible Scaling Policy)中,我们提出,如果 AI 能够自主进行 AI 研究,它就真正具备了自主性,这是一个重要的门槛,可以帮我们测试 AI 模型的自主性风险。

如果真的测试出了风险,我们应该怎么办呢?基于这些测试,我们开发了一个 if-then 的框架:当模型达到特定能力水平时,就会触发相应的安全要求。

今天的模型位于 ASL-2 级别。

今天的 AI 系统处在 ASL-2 级别。根据我们的测试,这些系统还不够智能,不能自主复制或执行复杂任务,它们提供的有关 CBRN 风险以及制造 CBRN 武器的信息并不比 Google 搜索更深入。虽然有时候它们确实能提供一些搜索引擎提供不了的信息,但这些信息还不足以拼凑在一起构成实质性威胁。

ASL-3 级别的模型可能会涉及到网络安全、生物、核这些危险能力,模型自主性也会提升,即模型本身存在可能做坏事的风险。

ASL-4 级别意味着模型本身也可能成为实施危险行为的主要工具。在自主性方面,这个级别的模型可能会加速 AI 模型做 AI 研究的发展。

ASL-5 级别的是那些真正超越人类能力的模型。

要怎么应对这些风险是个很棘手的问题,我们的方案就是通过 if-then 触发机制,最大限度地减少负担和虚假警报,同时又能在危险真正出现时,做出适当的反应。

Lex Fridman:你觉得模型什么时候能达到 ASL-3 级别,什么时候能达到 ASL-4 级别?

Dario Amodei:这个问题公司内部一直在激烈争论。虽然不方便分享细节,不过我认为模型很有可能在明年达到 ASL-3 级别,甚至今年也有可能。这个时间点很难预测,但我可以确定的是,2030 年之前肯定会达到。

如果是 ASL-3 级别的模型,难度主要在于部署时要针对一些特定的领域加强安全性和筛查机制。因为 ASL-3 级别的模型还没有完全实现自主,不需要担心模型在内部运行时会做出不好的行为,所以 ASL-3 阶段的应对措施,虽然不会那么轻松,但相对来说还比较好把握。

一旦模型达到 ASL-4 级别,我们就要担心模型可能聪明到能欺骗测试,隐瞒自身实际能力。已经有研究发现了 有潜伏性质的 agent,最近也有研究结果显示,模型可能会伪装自己的能力,假装自己的水平不够高。所以在 ASL-4 阶段,除了直接和模型互动之外,我们也需要借助其他手段。

比如我们可以用可解释性分析或者隐藏的 chain of thought 来深入观察模型,通过一些不容易被模型干扰的机制来验证模型的特性。

目前我们还在研究 ASL-4,RSP 的一个特性就是,只有在达到 ASL-3 的级别之后才能确定 ASL-4 的内容。因为即便是 ASL-3 级别的模型,我们也很难完全掌握所有细节,所以需要多花时间尽可能谨慎地推进。

ASL-3 阶段,负面角色其实是人类,而在 ASL-4 阶段,人类和模型都有可能成为负面角色。

当然也可以考虑把机制可解释性直接应用到模型身上,但这样一来就不能再把这种方法当作是一种判断模型状态的可靠的指标了。

还有其他一些不太常见的方法也会让机制可解释性不再可靠,比如模型聪明到能跨计算机读取那些监控它内部状态的代码。我们也考虑过这些情况,虽然相对不太常见,但也有对应的缓解措施。总的来说,我们希望能够让可解释性分析作为独立于模型训练过程的验证手段。


11 

AGI 如何和生物学和医学领域结合?

Lex Fridman:你认为我们什么时候能实现 AGI?

Dario Amodei:AGI 的时间线我想了很久,我也不能完全确定,也因此让市场被过度理解。按照目前的趋势来看,我们现在已经达到了博士水平,去年是本科水平,前年是高中生水平。当然,在不同任务和模态上模型的表现还有争议,但我们确实在不断扩展能力边界,如果就这种能力增长来看,做简单的线性外推,确实会让人觉得 2026 年或 2027 年就能实现 AGI。当然很多因素都可能打乱这个进程,比如我们缺少数据、计算集群,也可能是 GPU 环节出现变动等等,所以我觉得实际要更晚,甚至极端情况下 100 年内都无法实现,不过这种极端情况的可能性越来越小,暂时还没有什么有说服力的理由来解释为什么不能在未来几年就实现 AGI。

但这个时间并不是一个科学预测,就好像所谓的 scaling law、Moore』s law 一样都不是宇宙法则,而是经验规律。我会押注它们能继续延续,但我也不能完全确定。

Lex Fridman:你在文章中提到了「Compressed 21st Century」这个概念,讲 AGI 如何在生物学和医学领域推动突破性进展,那么在实现这些突破的过程中,AGI 的早期应用会是什么形态?

Dario Amodei:我在文章中重点强调了一个对我影响很深的观点:在大型组织和系统中,往往是少数人或少数新想法能够改变原有的发展轨迹,产生相当大的影响力。这种情况很普遍,比如在医疗领域,支付给 Medicare 在内的医疗保险和其他医疗保险的费用高达数万亿美元,但 NIH(美国国立卫生研究院)的预算只不过才 1000 亿美元。而真正带来革命性突破的,其实只占这资金总额的一小部分。所以在思考 AI 能产生影响的地方时,我想的是 AI 能不能扩大这一小部分资金,同时提高其利用效率?

在生物学领域,根据我的经验,最大的问题是我们看不到生物体内部的情况,我们的观察能力很有限,也没什么能力进行干预。我们只能从有限的信息中推断,比如每个细胞里都有 30 亿个 DNA 碱基对,它们按照遗传密码排列。细胞内的各种过程一直在进行,但普通人几乎无法干预。健康的细胞分裂的过程有时也会出错,由此会带来癌症,这个过程中也会出现细胞老化、皮肤变色、皱纹等,这些都由内部过程决定,包括蛋白质的生产、运输以及相互结合过程。

在生物学研究的初期,我们甚至不知道细胞的存在,后来发明了显微镜才观察到了细胞,发明了更强大的显微镜才看到了分子层面的结构,通过 X 射线晶体学才观察到了 DNA,又通过基因测序得以读取 DNA。现在我们有了蛋白质折叠技术可以预测它们如何折叠和结合,12 年前我们开始用 CRISPR 技术来编辑 DNA。一部生物学的发展史,很大一部分就是我们不断提升观察和理解能力、有选择地改变这些过程的能力的过程。我认为在这方面还有很大的提升空间。

虽然现在我们有了 CRISPR,但要在全身范围内精准编辑特定类型的细胞,同时要求错误靶向率极低,仍然是个难题,也是人们正在研究的问题,某些疾病基因治疗可能需要这种技术,而且这种技术还涉及基因测序、用新型纳米材料观察细胞内部变化、抗体药物偶联物等等。

这些都可能是 AI 系统的着力点。在生物学历史中,这样的发明可能只有几十、几百个。但如果有上百万个 AI 系统一起工作,它们可能很快就会发现成千上万个这样的突破,带来更大的杠杆效用。

Lex Fridman:第二个问题,未来科学家与 AI 系统一起工作会是什么场景?

Dario Amodei:我认为在早期阶段,AI 会像研究生一样,被分配到具体的项目,科学家会告诉它,自己是经验丰富的生物学家,已经设置好了实验室,现在要研究某个问题,比如生物学教授或者研究生可能要研究「AI 系统可以做什么」这个问题,而 AI 系统拥有所有工具,可以查阅所有文献来决定下一步行动、查看所有设备、并且访问网站订购新设备。

比如 AI 可能可以去 Thermo Fisher 或者其他主要的实验室设备公司订购新设备,运行实验,写实验报告,检查图像污染情况,决定下一个实验,编写代码进行统计分析等等,所有研究生会做的事情,都可以由一台配备 AI 的计算机来完成,教授只需要偶尔和它交流一下,告诉它一天的任务是什么。

AI 系统会提出问题,在需要操作实验设备时,它可能会有一些限制,可能需要雇佣 lab 的人类助手来做实验并解释如何操作,或者利用过去十年开发的实验室自动化技术,这些技术还会继续发展。

所以,未来的场景可能是一个人类教授带领 1000 个 AI 研究生,这些 AI 研究生甚至会比获得诺贝尔奖的生物学家还聪明。到某个时点,生物学家和 AI 的关系会翻转,AI 系统会成为项目负责人,指导人类或其他 AI 系统工作,我认为研究方面会是这样运作的。

AI 系统可能也会发明 CRISPR 这类技术。我在文章中也说过,我们会想利用 AI 系统改进临床试验系统。生物领域有些涉及监管和社会决策的环节会更难一点,但我们至少可以更好地预测临床试验结果。

比如,能不能改进统计设计,让原本需要 5000 人、耗时一年、花费 1 亿美元的临床试验,现在只需要 500 人、两个月就能完成?这才应该是我们的起点。另外,我们能不能在动物试验中完成原本需要临床试验才能完成的工作,在模拟中完成原本需要动物试验的工作,以此来提高临床试验的成功率?当然我们不可能完全依赖 simulation,但我们至少可以根本性地改变这个行业的曲线?这是我对 AI 和生物领域结合的设想。

Lex Fridman:你在文章中描述的 AI 在纯智能层面,在大多数相关学科上,比诺贝尔奖得主还要聪明,到那个时候,它和人类的交互会是什么样子的?

Dario Amodei:一种极端的观点是,从进化史来看,人类文明发展是一个加速的过程,数十万年里世界上只有单细胞生物,然后出现了哺乳动物,再后来是类人猿。这个过程突然加速到人类出现,人类又迅速建立了工业文明。按这种观点,未来还会继续加速,而且人类水平是没有极限的。

一旦模型变得比人类聪明得多,它们就能更好地构建下一代模型。如果用简单的微分方程来描述,这就是一个指数增长过程,模型会构建更快的模型,这些模型又会构建还要快的模型。它们会制造纳米机器人来接管世界,产生比现有方式多得多的能量。如果按这个抽象的微分方程推演,那么在我们构建出第一个超越人类的 AI 后的五天内,世界就会被这些 AI 填满,所有可能的技术都会被发明出来。

我认为这种观点是错误的,背后的原因有几个:首先,它忽视了物理定律。现实世界中的事物只能以特定的速度发生,虽然有些循环生产的硬件更快,但生产硬件也需要时间。

复杂性也是一个问题。很多人会说,我们可以建立生物系统的模型,这些模型能完全模拟生物系统,但在我看来,虽然计算建模能做很多事,我也在生物学领域做过很多计算建模的工作,但有很多东西是无法预测的,它们太复杂了,不管 AI 有多聪明,直接做实验会比任何建模都更有效。建模本身就很难,而且要让模型与现实世界匹配也很难。

虽然计算机智能可以指数级提升,但预测能力只能线性增长。生物分子的相互作用也是一样,我们不知道一个复杂的系统受到干扰时会发生什么。就算足够聪明,也只能找到其中简单的部分。

但只要是涉及复杂系统的事情,我还是认为需要一定时间。我不觉得让 AI 系统能产生大量能源或者成功登月就能解决问题。有些人在评论我的文章时,说 AI 系统可以产生大量能源,生成更智能的 AI 系统,这种评论完全没抓住重点。这种循环不能解决我在这里讨论的核心问题,所以我觉得很多人都误解了重点。即使 AI 系统可以完全不受约束,绕过所有人类障碍,它也还是会遇到困难。如果我们希望这个 AI 系统既不会接管世界也不会毁灭人类,那它就必须遵守基本的人类法律。如果我们想要一个真正美好的世界,就必须让 AI 系统与人类互动,而不是自创一套法律体系或者无视现有法律。

从另一个角度来看,我其实更认同这样一种观点:我们之前也经历过重大的生产力提升,经济学家们已经深入研究了计算机革命和互联网革命带来的生产力提升。但这些提升往往不如人们想象的那么显著。就像 Robert Solow 说的那句名言:「计算机时代的影响随处可见,唯独在生产力统计数据中看不到」。

为什么会这样呢?原因在于企业结构、组织架构的制约,以及现有技术在全球贫困地区推广速度缓慢等问题。我在文章中也提到过,在这些地区,手机技术、计算机、医疗等基础设施都还很落后,更不用说还未出现的新型 AI 技术了。

所以有种观点认为,虽然从技术角度来说这些进展让人惊叹,但实际影响可能微乎其微。比如 Tyler Cowen 在评论我的文章时就持有这种观点,他认为彻底的改变最终一定会到来,但可能需要 50 到 100 年,还有些人看法更加保守。我觉得这些观点都有一定道理,从目前的 AI 发展来看,我能理解这两种观点。通过与我们的大企业客户打交道,以及与政府部门的接触,我深刻体会到这些传统机构推进起来十分缓慢,还会面临许多阻力。

但是,我相信我们最终会以不是特别快、但也不会太慢的中等速度推进,因为我在大企业甚至政府部门中都发现了两个推动变革的关键因素。第一,在这些组织中都有一小部分人能够看到全局,理解 AI 的发展方向,至少是理解 AI 在其所在行业的发展前景。比如现在的美国政府中就有一些人真正理解了这个全局。这些人认识到 AI 是当今世界最重要的事情,并且会积极推动相关工作。

虽然仅凭这些少数人还不足以在大组织中取得成功,但随着技术开始落地,在那些愿意率先采用的领域取得成功后,竞争压力会给他们助力。他们会在组织内部指出已经有其他人已经在这么做了。比如,传统银行会发现,新兴对冲基金正在做这件事,会抢走他们的市场。在美国,我们担心中国会在这场竞争中领先。

这种竞争压力加上组织内部有少数有远见的人,即使在最僵化的组织中也能带来真正的改变。这是惰性和创新之间的平衡,虽然惰性很强,但随着时间的推移,创新最终会突破重围。

我已经看到过很多次这种情况,阻碍确实会存在,比如对进步的障碍、复杂性、不知道如何使用和部署模型等。一开始这些障碍似乎永远不会消失,改变迟迟不会发生。但最终变革总会到来,而且往往源于少数人的推动。

这让我想起当初在 AI 领域推广 scaling law 时的经历,那时候感觉好像永远没人会理解,就像我们掌握了一个几乎没人知道的秘密。但仅仅几年后,所有人都知道了这个秘密。我认为 AI 在世界范围内的部署也会经历类似的过程,阻碍会逐渐消失,然后突然间我们就会实现全面突破。


(文:Founder Park)

欢迎分享

发表评论