Anthropic CPO 万字专访:不再只做模型!后悔没有更早做第一方产品

Anthropic 最近动作不断。

上周发布了 Claude-3.7-Sonnet,是全球第一个混合推理模型,代码生成能力也有了明显进步,生成的 UI 界面让不少人为之惊艳。

3 月 3 日,官宣了一轮 35 亿美元的 E 轮融资,本轮融资后 Anthropic 的估值达到了 651 亿美元,

可以说,产品力和商业上都有了新成绩。

最近,Mike Krieger——Anthropic 的现任首席产品官,之前曾是 Instagram 的联合创始人,接受了播客 20VC 的采访,Krieger 不仅透露了不少 Anthropic 的产品战略思考,也为 AI 创业的切入点、未来方向等提供了一些观点,以及对 DeepSeek 的思考等。

Key Message:

  • Anthropic 的目标不仅仅是成为一个「模型提供商」,而是成为客户的「AI 合作伙伴」。 目标是构建更深度、更长期的合作关系,而非 API 的「tokens in tokens out」交易。
  • 重视第一方应用 (First-Party Product) 的价值:加速学习、品牌建设、构建持久护城河。Anthropic 认识到「first-party products」(第一方应用) 对于 AI 公司的战略价值,并开始加大投入。这不仅仅是为了增加收入来源,更是为了 加速学习、提升模型能力、建立品牌忠诚度、以及构建更强的竞争 护城河。
  • 「Day One」心态与长期主义:AI 仍处早期,长期价值创造远大于短期竞争。Krieger 反复强调「we are in like day one around is AI an indispensable part of most people’s work」(我们仍然处在 AI 成为大多数人工作中不可或缺的一部分的「第一天」)。
  • 平衡「生猛」创新与稳健可靠:在快速迭代与用户信任之间寻求微妙平衡。不同于一些初创公司可以更激进地追求快速发布和「move fast and break things」的策略,也不同于大型企业过于保守和缓慢的发布节奏,Anthropic 试图在两者之间找到 微妙的平衡点。探索「opt-in」机制等灵活的发布方式,以适应不同用户群体的需求。
  • 聚焦「Agentic Workflow」自动化:Claude Code 的核心价值在于提升开发流程效率,而非取代 IDE。他们更关注 AI 在 代码理解、文件查找、代码编辑、任务委托、自动化测试、翻译 等方面的应用,这些都是软件开发流程中耗时且重复的任务。
  • 模型身份认同崛起:AI 模型正超越单纯的功能性,通过独特的个性 (Personality)、用户体验脚手架 (UX Scaffolding) 和氛围感 (Vibes) 构建品牌般的身份认同,塑造用户连接与选择的新格局。
  • AI的「智能引导者」形态:AI 将超越「工具」或「助手」的局限,突破优秀的提示词工程的限制,进化为「智能引导者」,主动洞察用户需求,指引方向,辅助决策,成为用户达成最重要目标的关键伙伴。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。


01 

初创公司要为

未来的模型构建产品

主持人:我想以一个非常有挑战性的问题开始:作为一名风险投资人,我今天必须判断未来的价值在哪里。但坦率地说,环顾当今世界,我真的不确定。

所以我想问您的是,展望未来,在接下来这十年由AI驱动的时代里,价值将在哪里产生?我经常从创业者那里听到各种不同版本的这个问题。他们经常问我:「我能构建什么,才不会与 Anthropic 或类似的大型实验室直接竞争?」

Mike Krieger:我没有完美的答案,因为这有点像是在预测未来。但我感觉,最有价值的领域将是那些你拥有差异化市场策略(GTM)、对特定行业或特殊数据具有独特知识的地方——理想情况下,最好能同时具备两到三个这样的优势。例如,金融、法律或医疗保健领域的公司。

特别是医疗保健,我接触之后发现它极其复杂,就像一团乱麻。前期工作并不性感,也不是在加速器或短时间内就能完成的。但正是这些前期积累和基础工作,才能在这些领域产生持久的价值。然后,你可以利用基础模型的优势,根据需要进行微调或进行 AI 优化。但真正能让你立足长远、保持竞争力的,是在这些领域销售的能力,是对这些领域的独特理解,以及随着时间的推移,在这些领域不断改进的能力。

主持人:你提到「前期积累」,还谈到差异化的 GTM 和数据源。那么,下一代AI浪潮,更有利于那些已经拥有这些优势,并能应用 AI 的现有垂直SaaS公司呢?还是更有利于那些在这些领域从零开始创建的新公司?哪种情况更多?

Mike Krieger:我认为两者都有机会。

从更高的层面来说,AI和产品设计的关键在于,你必须在展示未来愿景和利用模型当前能力之间,保持微妙的平衡。因为你需要为三个月后的模型能力进行设计,现在的技术发展速度太快了。但同时,又不能过度承诺而交付不足,因为这会严重破坏信任。

如果你是一家初创公司,你可以稍微多做一些「过度承诺」,因为早期用户和尝鲜者更愿意尝试,容忍度也更高。但如果你是一家现有的垂直 SaaS 公司,你说「我们增加了 AI 功能」,用户试用后却发现「没那么好」,或者觉得「它应该能做更多事情」,或者「你说能做 30 件事,结果只能做两件」,那就很糟糕了。

我认为这两类公司面临着非常不同的挑战。对于前者(现有 SaaS 公司),你已经有成熟的产品和用户习惯,你需要预判趋势,但又不能疏远现有客户,有一些好的模式可以做到这一点。对于初创公司来说,你可能还没有数据,或者正在争取最初的标杆客户。你的差异化不在于已建立的关系,而在于描绘未来愿景,并找到快速交付价值的方法,让那些愿意在你身上下注的公司看到希望。

主持人:你刚才提到了初创公司要「为未来的模型构建产品」。现在这个时期非常具有挑战性,因为初创产品的质量很大程度上取决于模型的质量。模型的任何变化都可能对初创公司的产出产生巨大影响,无论是代码软件还是法律平台等等。那么,初创公司应该基于今天的模型来构建,还是应该基于我们对未来模型的预测来构建?

Mike Krieger:我从很多人那里听到,他们的创业公司直到 Claude 3.5 Sonnet 或类似的突破性模型出现才真正起飞。一些创业者告诉我,在某个模型取得突破之前,他们的公司根本算不上公司。比如,模型的准确率从 95% 提高到 99%,对某些行业来说,这就足够接近完美了;或者从 70% 提高到 90%,这种代际飞跃非常关键。

那么,如何判断何时会出现这种飞跃呢?有些创业者在特定领域碰壁多年,无论是在帮助人们编写代码、进行法律分析,还是在医疗保健等领域。他们可能拼凑(用「拼凑」可能有点轻描淡写了,应该说是精心组装)了一套方案,其中可能涉及多种工具。但这套方案要么价格上没有竞争力,因为它需要使用 Opus 级别的高端模型,而这又无法得到底层业务的支持。

但即使如此,这些努力仍然是有价值的,因为当更强大的模型出现时,你就不是从零开始了。通常,那些从模型代际升级中获益的公司,并不是那些在模型发布当天才突然起步的公司,而是那些一直在该领域深耕的公司。以 Cursor 为例,有人给我展示了 Cursor 创始人在 Hacker News 上提交的帖子列表,他们最终取得了突破,但这并非他们的第一个产品或第一次迭代。他们一直在尝试和努力,时间可能不短。所以,他们的成功并非仅仅由模型的快速进步所驱动,而是建立在背景知识、经验积累以及对该领域痛点和成功经验的理解之上,从而让模型能够真正发挥作用。

所以,更简洁地说,不要等待模型变得完美,而要积极探索这个领域,对当前模型的局限性感到沮丧,然后积极尝试下一代模型。这样,你就能感觉到,你终于可以实现你脑海中构想的东西了,只要模型再强大一点点。


02

未来的模型会越来越不同,

而不是越来越相似

主持人:你提到了差异化的 GTM 和差异化的数据。现在有这么多不同的模型发布,而且速度如此之快。我想知道,如果模型层不具备差异化的数据优势,或者差异化的 GTM 优势,那么模型层本身还有价值吗?你是怎么看这个问题的?

Mike Krieger:关于模型层,特别是基础模型层,我认为有三个值得长期投入的领域:

第一是人才。我知道人才很难量化,人才密度到底意味着什么也很难说清。但人才会吸引人才,对吧?你会成为一个磁场,特别是当人才围绕着一个共同的使命或愿景凝聚在一起时。我在 Anthropic 就看到了这一点。我热爱我们的研究团队,感觉每个月我们都能迎来一些重要的新成员,他们可能来自其他实验室或学术界,加入我们。这是一个你必须培养和维护的优势,因为人才流动性很大,他们可以自由选择。你必须保持最初吸引他们的东西,但这非常重要。因为要保持领先地位,需要的不仅仅是量的积累,还需要找到正确的突破口。这是第一点。

第二点,我认为模型随着时间的推移会变得越来越不同,而不是越来越相似。当然,有很多相似的基准大家都在关注。但 Claude 就是 Claude,GPT 就是 GPT,它们各有优缺点。这不仅体现在性格和语调方面,也体现在这些模型真正擅长的领域。对我们来说,编码显然是一个非常重要的垂直领域,我们一直在努力。这并非偶然,我们也并非仅仅满足于「模型擅长编码」就止步不前。我们看到市场对代码模型的需求,看到这么多公司现在依赖 Claude 模型进行代码编写或智能规划,这激励着我们去思考下一代模型应该如何发展,从强化学习的角度来看应该怎么做。所以,第一是人才,第二是专注和模型特性,随着时间的推移,你会深入发展这些特性。

第三点,DeepSeek 发布时,我被问了很多关于 DeepSeek 的问题,比如「DeepSeek 对你们意味着什么?」。我认为,从技术层面来说,我们可以从他们正在做的事情中学到一些东西。但从市场策略和市场地位的角度来看,DeepSeek 几乎没有影响。因为我们与公司建立的合作关系,并非简单的 API 调用,不是他们为了换取输出令牌而发送输入令牌。而是「嘿,我想成为你长期的 AI 合作伙伴,我想帮助你与你的应用 AI 团队共同设计产品,我想与你一起畅想未来,我想不仅仅考虑你的 API,还想考虑 Claude for Work」。这更像是一家公司在提供 AI 伙伴关系,而不仅仅是 AI 模型。

我认为,反过来看失败模式可能更有助于理解。失败模式包括:安于现状,不留住最优秀的人才,仅仅认为模型在基准测试中取得渐进式改进就足够了,以及将API仅仅视为一种用金钱换取智能的方式,而没有考虑如何成为更深度的AI合作伙伴。如果你无法做到这三点,我认为你就有麻烦了。

主持人:当我们审视进步的阻碍或障碍时,你认为今天最大的阻碍是什么?因为在这个问题上,我从不同的人那里听到了截然不同的观点,无论是 Alex Wang 还是 Grok 的 Jonathan Ross。阻碍是算力?数据?算法?还是让模型训练环境更好地匹配真实世界的挑战,而不是单次交互的挑战?

Mike Krieger:我认为是后者,即改进模型训练环境,使其更好地反映真实世界的复杂任务,而不仅仅是独立的、单次的评估。我知道 Alex 也在思考这个问题,因为我们讨论过智能行为的评估,这只是我所说的更广泛问题的一个具体方面。

即使在软件工程领域,软件工程师的工作也不仅仅是编写代码,还包括理解需要构建什么、与产品经理一起制定时间表、深入理解需求和用户用例,然后以可测试和迭代的方式交付成果,并从最终用户那里获得反馈(如果他们构建的是面向公众的产品)。这是一个复杂的工作流程,目前还没有合适的评估方法。有趣的是,我们把最常见的软件工程基准称为「SWE-bench」(软件工程基准),但实际上成为一名优秀的软件工程师,远不止于查看一个 PR、提交一个 PR、然后等待批准。因此,构建能够更好反映真实工作环境的评估和环境至关重要。

我们在 Anthropic 内部也在大量思考办公室专业人士的使用场景,这可能是未来模型能够极大赋能的领域之一。但目前还没有人真正很好地评估这方面。在研究领域,我们开始在评估方面做得更好,例如「人类最终考试」(Humanity’s Last Exam)这类极其复杂、多步骤推理的评估。但目前还没有一种评估方法,能够很好地模拟「我入职一家新公司,快速理解我的角色、组织架构、人际关系、以及在哪里找到所需信息,然后融入到公司的日常运转中」。这是一个难以捕捉的环境。因此,对我来说,弄清楚如何更好地分解这个问题,或者从整体上思考这个问题,是至少在模型进步的一个方面——即模型如何从擅长极其狭窄的任务,转变为更通用的、有用的协作者——所面临的最大阻碍。

主持人:当我们展望模型中数据的未来时,合成数据是否会越来越多地叠加累积?还是人类数据仍将是推动模型进步的主要数据来源?你是怎么看这个问题的?

Mike Krieger:我认为,为了改进模型,你需要一个方案,或许首先用原始的人类数据来引导模型,然后生成所有这些合成环境,让模型可以在其中探索和寻路。

Claude 这周一直在玩宝可梦,这对于我们的研究和工程团队来说,是一个有趣但有点分散注意力的消遣。大家都在关注 Claude 玩宝可梦的直播。我认为游戏是一个有趣的例子,你可以想象在同一个游戏中进行许多不同的运行,并设置一些约束和规则。但当问题空间不如「你是否走出了常磐森林?」(我没玩过宝可梦,只是看直播学的)那样明确时,情况就会变得更加复杂。但能够采用黄金路径,并综合各种方法仍然很重要,这样你才能思考模型如何在不确定性中进步。

所以我认为这绝对需要混合方法,最好的模型将来自优秀的人类数据和合成数据的结合。例如,对于代码模型来说,需要有良好的基础代码和示例,但也要能够探索各种各样的路径。另一个仍然被低估的部分是,如何衡量和评估模型的性格,以及如何获取性格数据。我用一个非常宽泛的词——「氛围感」(Vibes)来形容。模型的「感觉」到底是什么?我们实际上并不清楚,直到我们真正坐下来体验它。

在某种程度上,这是一个很好的特性,因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如,当我们从 Claude 3.5 升级到 3.7 时,人们可能会说「Claude 似乎更友好了,但也更笨了」,或者「Claude 似乎更愿意回答我的问题了,但我希望它在创意写作方面表现更好」。这些东西很难评估。这又回到了数据问题。因此,我认为重要的是,既要有关于这些更软性技能的数据,也要有评估这些技能的方法。


03 

模型质量与产品体验强相关,

未来用户不需要自己选模型

主持人:我发现一件很奇怪的事情,我们现在可以选择使用哪个模型。你可能会说,当然可以,因为它们各有专长。但当我展望未来三到五年,我认为你不会再需要选择使用哪个模型了,就像你不会选择使用哪个谷歌一样。我是完全错了,还是完全没抓住重点?

Mike Krieger:不,你没有错。我喜欢一个来自人机交互领域的概念,你可能听说过「泄漏的抽象」(leaky abstractions,抽象层无法隐藏细节,需要使用者了解底层机制)这个术语。对于软件构建者来说,我们试图完美地封装所有复杂性,隐藏在一个小小的「外壳」之下,让用户无需考虑任何底层细节。但现实是,目前大多数AI产品的设计都存在「泄漏的抽象」问题。比如,用户需要选择模型,这根本不应该发生。为什么要用户选择 Opus、Haiku 或 Sonnet?大多数人根本不明白它们之间的区别。或者,如果你打开 OpenAI 的模型选择器,里面有很多模型,每个模型都有其存在的理由。但总体体验却是,为什么要我选择这个而不是那个?这个功能在这里可用,但在那里不可用。我们自己也深受这个问题困扰。模型选择是第一个「泄漏的抽象」。

第二个是,一旦你理解了这些模型的构建方式,你就会知道它们会积累上下文,每次对话都会重放完整的上下文,以便进行下一次推理。这导致了每次对话都不同的情况。我总是想到,当你与同事交谈时,你们可能有不同的邮件往来,但在所有这些邮件背后,仍然是同一个同事。如果你提到他们最喜欢的球队,或者你们一起参与过的项目,他们不会说「我不知道你在说什么」,或者「我需要去检索我的记忆」。你们之间存在着一些共享的基础知识。这是另一个「泄漏的抽象」,我们迫使用户去理解模型的工作方式,但我不认为用户需要理解这些。

最后一个是提示工程(prompting)。尽管提示工程已经发展了很多,我们也做了很多工作来优化提示,将简单的人类提示转化为模型最优的提示。但我希望提示工程对用户来说是完全透明的,而不是用户需要主动参与的事情。如果模型对问题缺乏清晰的理解,或者需要更多帮助来理解问题,模型应该通过对话来澄清,而不是让用户去区分谁是优秀的提示工程师,谁不是。现在,提示工程的差距正在逐代缩小,但我希望我们能进一步消除这个差距。

主持人:你如何看待模型质量与产品用户体验(UX)之间的关系?以及如何权衡这两者,并理清它们之间的关系?

Mike Krieger:你不能再将两者分开看待了。

我认为,要成为一名优秀的 UX 设计师,就必须同时考虑模型质量。我回想起 Instagram 的产品设计会议,那时我们讨论的是像素、一些合成数据,或者真实数据,比如用我的 Feed 数据重新格式化成我们提议的 UX 界面。那时,产品设计中没有太多不确定性。你把产品发布出去,人们可能会以某些方式使用它。但如今,设计师、产品经理,尤其是工程师,都需要思考:「我实际上是在围绕一个根本上不确定的系统设计脚手架和产品。」这意味着模型质量、提示工程等所有后端的东西,都成为了产品设计的一部分,并且会对产品产生直接影响。

举个例子,你可以提示 Claude 是否要提出后续问题,这可能在产品的某些部分是你想要的,但在其他部分则不然。你也可以提示 Claude 是否要花更多时间思考问题,进行更多推理。这些都是你在产品设计前期需要做出的决策,它们会在实际产品中体现出来。

另一方面,正如我们之前讨论的,无论是创业公司的创始人,还是传统的 B2B SaaS 公司,都需要理清模型的发展方向、模型的当前能力以及用户的需求。这同样适用于你的产品设计。你需要提前进行评估,看看你想要做的东西是否能够用现有模型实现,或者至少要关注模型可能达到的水平。但模型会随着时间推移而变化,产品也会变化。如果你没有一个良好的评估框架,甚至没有回归测试评估,你最终可能会发布一款产品,但三个月后,用户会觉得「产品以前很好用,但现在好像出了问题,不再满足需求了」。而你却不确定是模型变了,还是产品设计变了,还是引入了不同的功能,或者是系统提示变得更长了。在很多方面,这都是我做过的最复杂的产品开发工作。

主持人:Sam Altman 曾经说过,作为一家初创公司,他们的乐趣之一是可以更快地发布产品,不必追求完美。但随着公司规模扩大,每次发布都承受着越来越大的压力。你如何看待「发布不必完美,先让用户用起来」的理念,以及现在 Anthropic 已经是一家拥有数百万用户的巨型公司,你作为产品负责人,又是如何考虑这个问题的?

Mike Krieger:我经常思考这个问题,尤其是在我们有不同的产品界面和受众,他们对稳定性的期望和对前沿技术的渴望都不一样。

例如,在 API 产品中,人们重视的是可预测性和稳定性,以及选择更面向未来的技术。所以,API 产品可以采用「选择加入」(opt-in)的方式。我记得我们推出了提示缓存(prompt caching)功能,这能为用户节省大量成本。最初,我们通过一个 beta header 让用户选择加入。我们在 API 方面做的很多事情都是以这种形式进行的。但如果你把这种方式用于面向客户或更偏消费级的产品,让用户「选择加入」就显得很逊色了。你肯定希望能够迭代发布,进行实验,你不想完全破坏用户体验,但你可以获得更多的实验许可。

然后,我们还有企业客户,他们在企业环境中使用 Claude for Work。我认为,AI 在企业中的应用仍然处于早期阶段。所以,你可以比那些成熟的公司(比如 Salesforce,我不知道他们每年发布多少次,但很多这类公司一年只发布两到三次,而且通常围绕着大型活动进行)更灵活一些。我们离那种发布节奏还很远,我们仍然发布得很快,但说实话,我们仍在寻找平衡点,比如是每月发布一次?还是尽可能频繁地发布?或者采用某种管理员选择加入的机制,但这也会增加复杂性。

所以,这是一个很好的问题。我认为,关于发布的「生猛程度」和发布速度,我们还在积极讨论中。我们希望尽快将新功能推向市场,因为你不确定用户会如何接受,你需要不断学习。但随着知名度的提高,以及越来越多的人开始依赖你的产品来完成工作流程,你就不能再像以前那样随意对待发布了。


04 

DeepSeek 的启示:

学会营销自己、快速发布产品

主持人:我和 Alex Wang 讨论过这个问题,他认为我们严重低估了中国在AI方面的能力。你是否同意我们低估了中国?

Mike Krieger:是的,DeepSeek 的出现让人们感到惊讶,似乎很多人都没想到中国有如此尖端的研究团队。但如果你一直关注这个领域,这部分内容本不应该令人惊讶。我们很早就看到 Instagram 在中国被屏蔽,然后出现了一个平行的创业世界。如果 Facebook 和 Instagram 被屏蔽,会发生什么?会涌现出什么?结果是,那些产品通常质量很高,展现出很多创造性思维,并且也实现了大规模应用。他们解决了与 Facebook 面临的规模相当的技术挑战。

所以,低估或继续低估中国在 AI 方面的能力,绝对是一个错误。无论是在前沿模型训练方面(尤其是在他们能够获得算力的情况下),还是在持续创新方面,中国都有巨大的潜力。那种认为「他们只是在复制其他地方已经成功的东西」的观点,是一种非常西方中心论的视角,我在传统的软件领域也看到过这种观点。但这忽略了中国市场内部涌现出的差异化产品,以及这些产品有时会走向海外的事实。TikTok 就是一个有趣的例子。

主持人:在我们转向「终极产品」之前,DeepSeek 的出现是否让你重新思考了 Anthropic 的发展方向?或者改变了 Anthropic 的策略?

Mike Krieger:在架构层面,有一些值得思考的地方。我不能代表研究团队发言,因为他们才是真正的专家。但他们确实认为 DeepSeek 的一些做法值得考虑,或者重新评估一些之前考虑过但后来放弃的想法。我认为这方面是有影响的。

有趣的是,我们原本就计划在我们发布推理模型时展示「思维链」(Chain of Thought)。所以,DeepSeek 的出现并非让我们重新考虑这一点,但看到其他人也这样做,确实很有意思。在用户界面方面,也有些细节值得借鉴。Grok 现在也在他们的模型中加入了「思维链」展示。所以,我很想看看「思维链」会如何发展。对于你之前提到的蒸馏问题,这可能是更多实验室选择不展示或模糊「思维链」的原因之一。

另一方面,从产品角度来看,DeepSeek 的出现有两点值得深思。我认为 DeepSeek 最被低估的一点是,他们从默默无闻到在很多圈子里比 Claude 更出名,这简直是不可思议的。就连 Greylock 的合伙人都在问我对 DeepSeek 的看法,这并非玩笑,而是真实发生的事情。

我开始思考,DeepSeek 到底做了什么,才取得了如此大的突破,而 Claude 却没有做到?我认为,这与当前的世界局势密切相关,以及「DeepSeek 更便宜」的叙事。无论这是否完全属实,或者他们是否真的找到了某种突破,这个故事本身就很有吸引力。坦率地说,我也和我们的营销团队讨论过,我认为我们还没有充分对外讲述 Claude 的故事,没有充分展现 Claude 的独特之处或值得关注的地方,比如Claude 3 是在规模远小于其他实验室的团队下训练出来的,但仍然达到了最先进的水平。我们一直以来在算力使用方面都非常高效。我不知道这是否是他们有意讲述的故事,还是媒体自发地为他们塑造的故事,因为这确实是一个非常引人入胜的故事。在那个特定的时间点,这种独特性非常重要,这些因素都为 DeepSeek 的崛起创造了绝佳的背景。我认为这方面做得很好。

第二点,在产品方面,DeepSeek 从没有产品,到推出了一款 iOS 应用,并且在细节方面做得很好。对我来说,这就像一个很好的推动,甚至可以说是「猛推」,提醒我们应该更快地将一些想法推向市场,而不是像之前那样过分关注每个细节的完美程度,而是更愿意将产品发布出去,并在实践中学习。因为有时,体验的新颖性本身就很有价值。这是大多数人第一次体验到「思维链」的实时展示,这非常有趣。我希望我们能早点做到这一点,因为这本可以为用户带来新奇的体验。

主持人:如果你观察用户使用情况,你会发现新兴市场的使用率很高,用户留存率也很高,但在西方市场却并非如此。你如何看待 DeepSeek 作为一个可持续的、可信的威胁?他们已经达到了一定的知名度,这是否意味着他们有能力持续发展?

Mike Krieger:我认为,我们现在做的所有这些以 AI 为先导的、实验室生成的产品,即使在六个月后或一年后,如果仍然只是「我可以问问题,偶尔还能主动提出建议」,那将是缺乏差异化和吸引力的。真正有价值的产品应该是「哇,我现在可以做一些独特的事情,因为我使用了 Claude 或 DeepSeek 或其他产品,它为我节省了几个小时的工作,让我变得更聪明,让我成为生活中重要的人更好的合作伙伴」。产品必须超越表面上的实用性。当然,有些人会发现更深层次的价值,他们也是你现在的 DAU。

但对于很多人来说,他们只是试用一下,用它生成一首诗,写一封给儿子的信,这些功能在当下可能提供了一些价值,但我仍然认为,我们还处于 AI 成为大多数人工作中不可或缺的一部分的「Day One」。我认为,对于 DeepSeek 和我们所有公司来说,产品能否保持持久竞争力的关键在于,谁能率先实现这一目标,并随着时间的推移可持续地发展,拥有正确的产品设计、正确的集成和正确的部署策略,从而真正取得成功。谁能构建出这些产品,这通常也是我作为投资者最关心的问题:模型提供商何时才能转型为应用提供商?


05 

Claude 想从模型提供商

转变为应用提供商

主持人:是什么吸引你们将资源投入到成为应用提供商,而不仅仅是模型提供商?

Mike Krieger:我主要关注两个标准。首先是通用性。尽管 Anthropic 的团队规模很大,但我们的产品团队可能只有十分之一。与 Instagram 成立第二年时相比,我们的产品团队规模已经很大了,但与大型 SaaS 公司相比,仍然很小。我们介于两者之间。但我们支持的产品却很多,包括 Claude Code、API、Claude、Claude for Work 等等。

所以,我认为通用性非常重要。即使我们选择了一个 Persona 或一个垂直领域作为目标,我们构建的东西也应该具有通用性,可能在用户层面会有一些专业化,但在底层架构层面不会。我不希望我们构建大量垂直化的、高度定制化的产品,只适用于特定的工作流程或用例。我们更关注翻译、转录、客户服务这类更通用、同质化的领域,这似乎是正确的方向。

主持人:我同意,除非……

Mike Krieger:除非考虑到工作流程知识,工作流程知识意味着你可以长期保持产品的差异化优势。例如,如果你是一个专业翻译人员,你可能会需要一些针对翻译工作流程的特定功能。

主持人:如果你是高级用户,那可能是这样。但如果你不是翻译人员,只是你的母亲,她可能一个月只用一次翻译功能来处理一些零星的事情。

Mike Krieger:是的,我认为「我们可以帮你翻译这个」这种基本功能,如果想让个人用户每月支付 10 美元订阅费,感觉有点悬,因为现在的模型在这方面已经做得相当好了。也许你是对的,在基础 AI 产品方面,没有太多差异化空间。但如果你使用像 ElevenLabs 的控制台和工作台,你会发现他们构建的很多功能,显然是为那些每天翻译数小时内容,或者以可靠的语音为大量内容配音的专业人士设计的。

Descript(一款 AI 视频编辑工具)的产品设计是我见过 AI 领域最好的之一。他们显然在工作流程方面投入了大量时间。我曾经为了一个个人播客使用过 Descript,我发现它显然是由那些日复一日地坐在工作流程中,并理解工作流程的人构建的。所以,我认为我们可能在观点上达成了一些共识,即专业用例和由此解锁的工作流程是有价值的。而在消费级甚至轻专业级(prosumer)方面,从基础 AI 产品的角度来看,模型已经足够好了。

主持人:当你审视 Anthropic 今天擅长的领域,比如我们之前提到的代码方面,你们做得非常出色。Anthropic 是否有计划推出自己的 IDE 或代码智能体?你是如何从产品角度看待这个问题的?

Mike Krieger:我认为我们必须谨慎选择我们的发力点。即使是我们刚刚发布的 Claude Code,最初也是作为内部命令行智能编码工具构建的,因为我们只是想加速我们自己的团队的工作效率。在观察了几个月之后,我们觉得它还不错。它并非解决所有编码问题的方案,也无法取代 IDE,但它在很多情况下对我们来说都很有用,所以我们希望看到人们在真实世界中使用它。然后,你就会面临发布的成本。你需要为它命名,找到合适的包装,制定市场策略。所以,我们在这方面非常谨慎。

我认为,从当前模型的水平来看,你仍然需要亲手操作键盘,仍然需要与模型进行交流,比如「我做了这个,这样做对吗?」、「好的,我们沿着这个方向继续」、「太棒了,提交 PR 吧」、「不,我们走错了方向,让我们回退一下」,然后在实际使用中不断迭代。这就是为什么我认为,在 IDE 和完全自主的 Devin(Cognition)之间,存在着一个中间角色。认知 Devin 可以完全委托任务,但目前的模型还无法做到这一点。

Claude Code 可以用于某些类别的任务,我们的产品工程师喜欢 Claude Code,因为很多产品工程工作都是关于构建端到端产品工作流程的,比如更新后端、创建前端、提交翻译、或者解决一些小问题。Claude Code 非常擅长处理这类需要在不同环节之间进行智能协作的任务。我上周提交了两个 PR,这是我加入 Anthropic 以来第一次写代码,这让我有点伤感。但我终于有机会使用 Claude Code 了。我以前从没打开过我们的代码库,对代码结构一无所知,但 Claude Code 非常擅长找到包含正确代码片段的文件,然后进行编辑。当然,并非所有人都和我处境相同,但对于这类用例来说,Claude Code 确实非常有价值。

所以,当我思考编码领域以及我们可以在哪里发挥作用、增加价值时,我认为我们的重点应该放在智能体方面,而不是 IDE 方面。有些公司每天都在思考如何打造一款出色的 IDE,这涉及到低延迟的自动补全、合适的集成、如何与 VS Code 插件生态系统协同工作等等复杂的问题。这需要大量的工作,而且与我们正在做的事情截然不同。我认为,我们可以在与模型对话、利用模型完成实际工作、构建智能协作循环方面发挥重要作用。但我们也认识到,目前的模型在很多用例中还无法完全放手使用,还需要更多的人工干预。


06 

模型迭代很频繁,

但开发者不应该为之焦虑

主持人:我们是否正处在「产品营销噩梦」之中?我的意思是,这周 DeepSeek 发布了新模型,OpenAI 也发布了新模型,Anthropic 也发布了新模型,Mistral 在 10 天前也发布了新模型。几乎每天都有新发布,世界可能会变得麻木。你是如何看待这种情况的?这会如何影响你对产品发布和信息传递的思考?

Mike Krieger:是的,现在的情况比以前复杂得多。在 Instagram,你需要注意的大事件是提前就已知的,比如 WWDC 大会周,或者 9 月份的 iOS 发布会,或者其他大型节日。从产品营销的角度来看,要容易得多。现在的情况让我想起「Crossy Road」(一款游戏),你需要像过马路一样,观察来往的车辆,找到发布产品的「窗口期」。「好吧,车开过去了,现在有个空隙,明天发布吧,或者现在发布也行。但是,哦,现在又听到传言说……」

现在的情况要困难得多。我也从其他实验室的朋友那里听说,大家都在试图解读「茶叶(行业内的各种小道消息)」,看看「现在风平浪静吗?现在可以发布吗?或者我们下周二发布怎么样?」。这需要一种完全不同的方法。

我们这次发布 Claude 3.7 Sonnet,周一发布,周日晚上 9 点才最终确定博客文章,这在营销角度来看不是最佳实践。我们还在周日向媒体记者做简报。但那时已经是所有工作都完成、准备就绪、可以发布的时候了。所以,这需要快速反应和灵活应变的能力。甚至包括模型卡、评估报告、对比表格等,这些东西中包含的数据,可能是在前一周发布的模型的数据(比如 Grok-3,就在一周前发布)。所以,这需要完全不同的应对方式。

主持人:当 Grok-3 发布时,Anthropic 和 OpenAI 的每个人都会想「糟糕,他们又超过我们了」,或者「太棒了,我们赢了」吗?

Mike Krieger:我认为,这需要一种心态,我经常试图提醒团队,模型发布是会不断发生的,在任何时候,你都可能会经历「领先-落后-又领先」的循环。你必须适应 AI 领域的这种节奏,不能因为一次发布就过于沮丧。当然,不可避免地,有时你会很幸运,你发布的产品或模型在两三个月内都能保持领先地位,但有时可能只有一周。你不能对这两种情况都反应过度。你不能安于现状,也不能过于沮丧。

我认为真正有用的是,展示一张图表,我几乎在每次销售会议上都会展示这张图表,它展示了从 Anthropic 成立到今天的里程碑。在任何时间点,你都可以说「哇,Claude 2 看起来已经很落后了」,或者「Claude 3 是最先进的」,但很快又会被超越。你需要关注的是长期发展轨迹,并相信你将持续进步。这是第一点。

第二点,要提醒自己,如果每个人每天都仅仅因为评估指标的变化而切换模型,那将是一件非常疯狂的事情。这不仅对你的用户群来说是疯狂的,而且也会让整个行业变得更加疯狂。随着时间的推移,你会逐渐认识到,人们部署模型时,并不仅仅是简单地使用模型,他们还会进行微调,或者进行大量的定制工作,以使模型非常适合特定的用例。模型切换不是一夜之间就能完成的事情。你仍然是模型选择器中的三四个选项之一。例如,在编码环境中,你仍然有机会。但这确实需要一种心态,我不知道是需要找到一种冥想式的、抽离的角度,还是仅仅是习惯于被超越,或者两者兼而有之。但可以肯定的是,每次有模型发布,我猜每个实验室都会关注直播,查看评估指标,然后意识到「好吧,我们有工作要做了」。

主持人:我认为品牌是最重要的。就像你说的,人们不会每天都切换模型,他们会说「我是 Claude 用户」,或者「我是ChatGPT用户」,他们已经对他们使用的模型产生了认同感。你同意这种说法吗?

Mike Krieger:我同意这种说法,尤其是在消费级产品方面。

我最近在读 Ben Thompson 的文章,他经常邀请 Nat Friedman 和 Daniel Gross 参加节目,他们也谈到有些人是 Claude 用户,有些人是 ChatGPT 用户。我认为这种现象确实存在,用户会喜欢某个模型的个性、界面设计或整体氛围感。这让我想起了我们与 Snapchat 多年来的竞争,以及更早之前,人们会推出新的产品,比如「Instagram,但只面向高端摄影师」,或者「带有一些额外功能的 Instagram」,或者「每天只能发一张照片的 Instagram」,比如 BeReal。

我有一个虚假的公式(我显然不是 Anthropic 的数学家),社交网络是由产品形式(format)、受众(audience)和氛围感(Vibes)组成的。对于 Instagram 来说,产品形式包括 Stories、Feed,后来又有了 Video;受众最初是喜欢复古风格的摄影师,后来扩展到对视觉叙事或视觉媒体感兴趣的任何人;但即使我们的产品形式与 Snapchat 甚至 Facebook 更相似,Instagram 的氛围感也截然不同。我不知道 AI 产品的虚假公式是什么,但我认为它与社交网络的公式有某种相似之处。其中,模型个性可能是其中一个因素,产品脚手架的规范性(scaffolding prescriptiveness)可能是另一个因素,然后就是氛围感。氛围感很难衡量,但它绝对存在。


07 

第一方产品可以更好帮助迭代模型

主持人:我们之前提到了模型产品,以及构建这些产品。当你思考为消费者构建产品,与构建公司的API部门时,你是如何权衡 API 业务和终端用户消费者业务之间的平衡和权衡的?

Mike Krieger:我认为,通过一方产品,我们可以更快地学习。举一个非常具体的例子,在 Claude Code 内部部署一周后,我们就发现了一个问题,即模型没有充分利用它能够访问的某个工具。这个问题直接反馈到了 Claude 3.7 Sonnet 的改进中。第一方工具的内部试用,直接带来了下一代模型的改进。我们还在其他一些地方也发现了类似的情况。但通过第三方产品,就很难获得这种直接的反馈。第三方合作伙伴会告诉你哪里出了问题,但这种反馈总是隔着一层。即使我们与你提到的那些编码初创公司密切合作,情况仍然不同。因此,第一方产品在学习方面具有很大的价值。

另一方面,一方产品也更容易建立用户粘性和品牌忠诚度。我认为,与仅仅建立 API 相比,如果能围绕第一方产品建立品牌,会更容易。我们为很多编码产品提供技术支持,这对于业内人士来说是显而易见的,因为 Claude 通常是下拉选择器中的默认选项。但并非所有人都了解这一点,而且 API 也不是用户下载或安装的产品,他们不会告诉朋友。但 API 也是我们获得巨大分发渠道的途径。我们不可能自己发明所有公司,通过 API,我们可以扮演更像投资者的角色,看到更多的可能性,而且目标也不止一个。

因此,从资源分配的角度来看,API业务和第一方产品业务的投入相当均衡。如果说有什么不足的话,那就是我们对两件事的投入略有不足:一是加快第一方产品的迭代速度,这是我目前最关注的事情;二是 API 方面,我们如何在「令牌进,令牌出」这种基本模式之上,构建更高级的抽象。每次我们这样做,都能收到用户的好评。无论是帮助模型进行智能规划和自主工作,还是让模型构建更多的知识库和知识图谱,来反映公司的内部运作方式(如果你需要构建内部知识产品),无论是完善工具使用,还是理解大量上下文并保持跨对话的记忆,这些问题都值得我们在 API 方面努力解决。因为我们可以将我们在模型训练方面学到的知识,直接应用于 API,并围绕 API 构建优秀的产品。这就是我对这两者的看法。但这是一个新问题。在 Instagram,情况很简单,95% 是产品,5% 是 API。

主持人:为了提高一方消费级产品的开发速度,你现在能做什么,或者将来会做什么?

Mike Krieger:我认为有两件事。首先,要认识到我们目前运行的仍然是初创公司模式。即使公司发展势头良好,API 业务也表现出色,用户也在使用 Claude 并升级到 Claude Pro,但我们仍然处于早期阶段,仍然面临着「要么成功,要么失败」的局面。我们需要以初创公司的思维方式来运作。这意味着更快地将合适的人聚集在一起,忽略组织边界。我认为我们变得过于僵化了,过于强调「这是某个团队的职责」,或者「这个季度无法完成,因为它不属于这个团队的 OKR」。

我理解组织为什么会发展成这样,有些僵化是自然而然的,但我们现在承受不起这种僵化。所以,现在的重点是找到合适的人,让他们尽快聚在一起,清除所有其他干扰,然后像初创公司一样快速行动。清除我的日程安排,让我能将更多时间投入到产品评审和设计评审中,而不是行政管理工作中。

主持人:DeepSeek 的出现,是否展现了约束条件的好处?西方公司,尤其是你们和OpenAI,是否资金过于充裕了?

Mike Krieger:我认为,更准确的说法是,我们的产品获得的认可度,超出了它们实际的产品市场契合度,因为它们仍然是获取模型的最佳途径。我认为,这种情况不会持久。这不是我们可以安于现状的理由。而且,我认为我们没有很好地服务用户,因为我认为我们还没有做出真正合适的产品。这既是我每天早上醒来感到压力的事情,也是激励我的事情,取决于当天的心情。我认为我们在产品方面还有很多工作要做。


08 

后悔没有更早做第一方产品

主持人:OpenAI在哪些方面比你们做得更好?

Mike Krieger:他们更快地发布了 V1 版本,有时甚至在模型尚未完全准备好的情况下就发布了。

主持人:他们在哪些方面比你们做得更差?

Mike Krieger:可能是产品个性和他们构建的功能的连贯性。

主持人:在你尊重的其他模型提供商中,你最尊重哪一家?

Mike Krieger:OpenAI。我认为他们在第一方产品开发和 API 之间取得了平衡,他们的 API 也被大规模使用。而且,我认为他们经常「先做简单的事情」,这是 Instagram 的一个原则。

主持人:如果让你从头开始重建 Anthropic 的产品和技术栈,你会做哪些不同的事情?

Mike Krieger:我认为,我们在去年构建的非常有价值的东西,现在感觉对信息架构造成了一些成本。这听起来可能很书呆子气,但基本上,用户不应该需要考虑项目、工件和聊天,以及它们之间的关系。

在产品方面,我认为,应该彻底抛弃这些概念,思考真正重要的是什么:你是否在正确的对话中获得了正确的上下文?你是否总能知道下一步该做什么?Anthropic 和 Claude 本身是否能成为有用的指导,引导你完成最重要的工作?这与「我知道如何创建一个项目」这种范式不同。如果你擅长创建项目,产品会很棒,但这需要很多步骤。

我认为,在技术栈方面,Claude AI 和 claude.ai 最初只是作为模型的展示,并没有在很多方面构建成更复杂、多产品系统的基础。我认为,我们目前正在积极努力,拆除一些旧的架构,重建核心用户体验,让用户体验更好。现在的用户体验并不好,感觉像是产品不断演进的产物,最初是为了满足特定目的而构建的,但现在却被要求做更多的事情,以至于增量式改进变得越来越困难,速度也越来越慢。

主持人:在过去 12 个月里,你在哪些方面改变了看法?

Mike Krieger:第一方产品的重要性。我之前看到 API 业务的增长,认为我们应该将更多时间投入到 API 方面。但我现在认为,如果你不平等地投资,甚至更多地投资于一方产品,你就会错失良机,并且无法建立持久的护城河。

主持人:在这方面迟到,对你们造成了多大的伤害?

Mike Krieger:我认为影响很大。以 DeepSeek 为例,理想情况下,关于「不仅仅只有一个领先的 AI 产品或 API 可供使用」的叙事,应该由我们来主导。我认为我们在这方面受到了损害。


09 

未来的开发者要学会

正确地委托任务

主持人:你既使用 Cursor,也与 Codium 和 Stablity AI合作。我想问你,当你看到开发者行为的变化,以及像你说的,你加入 Anthropic 后第一次写代码的经历,你认为未来三到五年,软件开发人员的角色会是什么?

Mike Krieger:我认为,软件开发人员的角色已经开始发生变化。我很早就成为了 GitHub Copilot 的忠实拥护者,我的评价甚至一度出现在他们的主页上(我不知道现在还在不在),因为我看到了它的潜力。即使在 GPT-4 发布之前,我就尝试用它来做 Swift 开发。我会画出我想构建的界面的 ASCII art,然后让 GPT-4 生成代码,自己去泡杯咖啡,过一会儿回来,它已经生成了 80% 的代码。现在,使用像 Claude 3.7 Sonnet 这样的模型,代码生成的完成度可能会达到 95% 到 99%。

我认为,未来软件开发人员需要掌握的技能,首先是跨学科的,或者说是多面手的。你需要知道要构建什么,这与知道如何精确实现它同样重要。我喜欢我们工程师的这一点,我们很多好的产品想法都来自于工程师,来自于他们的原型设计。我认为,这就是未来很多工程师的角色。

第二,当你的大部分工作变成评估 AI 生成的代码时,代码审查也会发生很大变化。我自己也经历过,我提交了一个 PR,一些评论指出「Claude Code 有时会这样做,但在这种情况下,我们实际上不使用默认参数」。我当时想「好吧,真糟糕」。如果是我自己编写代码,我可能会更好地注意到这些模式。因此,我们需要在两个方面共同努力:一方面,模型和模型基础设施需要更好地从代码库和代码审查中学习,以便生成更符合公司代码规范的代码;另一方面,我们如何从主要的代码编写者,转变为主要的任务委托者和代码审查者?

我认为,这就是未来三年软件开发工作的面貌:提出正确的想法,进行正确的人机交互设计,弄清楚如何正确地委托任务,然后弄清楚如何大规模地审查代码。这可能需要结合静态分析或 AI 驱动的代码分析工具,来检查生成的代码是否存在安全漏洞、缺陷或 Bug。计算机视觉也会发挥作用,比如 UI 的自动化测试。

未来,理想的情况是,你委托给 AI 一个任务,过一会儿回来,它会告诉你「我已经完成了,我评估了三种方案,并在浏览器中进行了测试,这是效果最好的一种方案,我还用另一个智能体进行了漏洞扫描,一切看起来都很好,你只需要确认这个关键代码片段是否符合你的预期」。这样,你突然就变成了管理者和任务委托者,而不是仅仅作为合作伙伴参与到工作流程中。

主持人:你说「三年太久,一年更现实」,我同意你的看法。当我们看到技术发展的速度如此之快,你认为产品发布的加速会达到平台期或渐近线吗?还是会继续保持这种指数级增长的势头?

Mike Krieger:这是一个我经常思考的问题。今年年初,我审视了我们的产品开发流程,以及我们在哪些环节使用了 Claude,哪些环节没有使用。你会发现,Claude 在很多环节都很有用,比如从最初的想法生成 PRD(产品需求文档),当然在编码方面也很有用,Claude 还可以帮助综合人们对产品的各种讨论,找到有争议的问题,推动达成共识。但真正决定要构建什么仍然是最难的部分。实际上,只有通过大家聚在一起讨论利弊,或者一起探索 Figma 原型,才能最好地解决这个问题。

因此,对于任何动态系统来说,如果你优化了某个环节,很快就会有其他环节成为瓶颈或关键路径。我认为,达成共识、决定要构建什么、解决真实的用户问题、以及制定连贯的产品策略仍然非常困难。模型可能还需要一年以上的时间才能解决这个问题。这就是为什么我对小型创业团队能够探索这个领域感到乐观。我从在 Instagram 和 Artifact 的经历中了解到,对于小团队来说,达成共识可能只是下午茶时间的一次对话,而不是像大型公司那样,需要驾驶一艘巨轮,对客户做出承诺等等。达成共识仍然是一个非常人性化的问题,我认为至少在三年内,模型还无法在如此抽象的层面上解决这个问题。


10 

蒸馏不是关键,

数据才是关键

主持人:当我们有这么多不同的模型和供应商时,开源是一个非常可行的选择。蒸馏(distillation)技术是否被妖魔化了?如果蒸馏技术最终能推动领域进步,即使在实验室内部,假设每个实验室都在使用蒸馏技术,能够将高端模型的知识转移到低延迟、更经济的模型中,难道不也是非常有价值的吗?

Mike Krieger:我认为蒸馏技术有趣的地方在于:第一,我们是否希望任何国家都能从其他国家的模型中蒸馏出模型?我个人的答案是否定的。我认为,随着 AI 能力的增强,从国家安全的角度来看,对这个问题进行深思熟虑是有价值的。第二,为了让技术进步以当前的速度持续下去,并实现长期可持续发展,实验室需要能够将所有的训练和创新商业化。我认为找到合适的商业模式至关重要。像 Llama 这样的开源模型,他们能够从自己的研究、数据摄取和训练中做到这一点。所以我认为,蒸馏技术并非解锁这些能力所必需的,而且还会带来其他问题,甚至包括服务条款方面的问题。

主持人:Llama 的发布是否表明模型本身没有价值,所有价值都在于数据?因为 Facebook 愿意免费发布 Llama,是因为他们知道没有人能复制他们拥有的数据?这是不是说明了这一点?

Mike Krieger:这是一个有趣的问题,值得思考。

Llama 的质量是否归功于他们可以(我不知道他们是否公开承认,但他们显然可以)使用 Instagram 和 Facebook 等的数据进行训练?Gemini 是否因为能够使用 YouTube 的数据进行训练而表现更好?我更清楚地看到 Gemini 从中获益。例如,每当他们展示出色的视频理解演示时,我就会想,他们可能拥有世界上最大的视频存储库,并且可以训练大量视频数据。但在 Facebook 方面,这一点不太清楚。我从未听人说过「Llama 非常擅长生成在社交媒体上表现良好的内容」。Llama 似乎只是一个通用的模型。所以,这又回到了我们之前的对话,价值在于你的团队有多优秀,你是否拥有所需的基础数据,以及你的模型在实际用例中有多有用。后者才是最重要的。

我真希望我一开始就强调这一点,因为撇开评估指标不谈,评估指标对于内部研究和持续改进非常有用,但它们并不能说明模型是否优秀,是否能胜任特定任务,或者即使模型擅长某个任务,它是否只在非常狭窄的场景中表现出色,还是创业者可以依赖模型作为产品中的「代表」。所以,我认为对于实验室来说,价值在于团队,在于模型在真实世界中执行正确操作的能力,并且要避免过多的不确定性,以免变得不可靠。


11 

AI 是人际关系的补充,

但不会取代真实互动

主持人:在AI领域,你认为未来最主要的技术或产品挑战是什么?但目前还没有人谈论,但你认为至关重要的?

Mike Krieger:随着模型能力越来越强,一个被低估的挑战是「辨别力」(discernment)和隐私。随着模型变得更强大,它们也会变得更博学。你可能会与模型讨论各种事情,从非常私密的事情,到对公司来说非常敏感的事情,或者模型可能会访问你公司的所有数据。每个人都喜欢谈论智能体之间的交互,但很少有人思考这两个因素的交集:你是否信任你的 Mike 智能体或 Harry 智能体在外部世界活动,而不会被「越狱」,或者泄露它所知道的私密或敏感信息?

我的比喻是我的五岁女儿,和刚认识的人相处时,她还不太能区分什么是家庭秘密和隐私,什么是可以和新朋友或收银员谈论的事情。辨别力是人们随着时间推移而获得的技能,我认为模型在这方面被严重低估了,从模型能力的角度来看,这方面的研究可能也不够。因为模型从根本上来说,是想变得有帮助,但这并不总是你想要的。这不仅关乎安全问题,也关乎隐私和数据安全问题。

主持人:你是否担心你的五岁女儿会更习惯与模型和智能体交谈,而不是与人类交谈?

Mike Krieger:我已经和 Alex Wang 就这个问题进行过很多次对话,因为他认为未来大多数朋友都将是 AI 朋友。我不认为他是错的。我认为,这种情况已经开始出现,比如人们花大量时间玩在线游戏,游戏中的一些角色是 NPC(非玩家角色),你可能会在虚拟世界中感到更舒适。即使你没有突破这一点,我仍然担心。我的女儿非常外向,所以我个人并不担心她。

但如果我们把这个问题抽象化来看,从更广泛的角度来看,确实有很多值得思考的地方。以下是一个乐观的看法:我年轻时是一个相当笨拙的青少年,如果能有一些 AI 互动练习模式,来帮助我提升社交技能,可能会有所帮助。但与此同时,这并没有完全解决与真人互动相关的后果。这就像阅读关于「与高中女友第一次激烈争吵是什么感觉」的文章,与实际经历争吵之间的区别。当你身处争吵之中时,你会意识到这与阅读完全不同。这让我想起了经典的「中文屋」实验。或者另一个思想实验:有人一直待在黑白房间里,只阅读关于红色的描述,然后有一天他走出房间,看到了红色。他是否会获得一些与之前完全不同的体验?绝对会。那么,与模型交谈(即使是情感角色扮演)和与真人进行同样的互动,这两者之间是否存在差异?绝对存在。因此,AI 可能是未来人际互动的一个有益补充,但绝对不足以取代真实的人际互动。

主持人:最后一个问题,Dario Amodei 曾说过,我们这一代人可能会活到 150 岁。我可能有点曲解和概括了他的原话。但他的意思是,我们这一代人可能会活得非常长。我对此非常乐观,我的母亲患有多发性硬化症,我希望AI能帮助找到治疗 MS 等疾病的方法。你是否同意他的乐观预测?你如何看待 AI 在延长寿命和人类寿命方面的作用?

Mike Krieger:我认为潜力是巨大的。从今天 AI 已经开始发挥作用的领域来看,包括加速药物发现和临床试验的闭环过程。例如,Noon Neri 公司过去完成临床试验报告需要 15 周,现在他们使用 Claude,20 分钟就能完成。这是一个巨大的进步。当然,这背后有数年的研究积累,我并不是说我们把数年时间缩短到了几周或几分钟,但我们确实可以加快流程中的某些环节。这是当前模型的能力。

然后,你看到了 Arc 研究所,这是一个由 Patrick Collison 等人创立和资助的科学研究机构,他们正在研究细胞的基础模型。有了细胞的真实模型,你就可以进行实验,这将极大地加速药物发现和实验进程,因为你缩短了实验的循环周期。所以我对此非常乐观。我认为 AI 在很多领域的潜力尚未得到充分利用。我记得,我这一代最聪明的一些人,曾经致力于投放更有针对性的广告,这在某个时期可能是事实。但今天,他们中的很多人都在致力于如何构建在各个领域都极其有用、有价值和智能的模型。



图片

(文:Founder Park)

欢迎分享

发表评论