Anthropic CPO 万字专访：不再只做模型！后悔没有更早做第一方产品

Anthropic 最近动作不断。

上周发布了 Claude-3.7-Sonnet，是全球第一个混合推理模型，代码生成能力也有了明显进步，生成的 UI 界面让不少人为之惊艳。

3 月 3 日，官宣了一轮 35 亿美元的 E 轮融资，本轮融资后 Anthropic 的估值达到了 651 亿美元，

可以说，产品力和商业上都有了新成绩。

最近，Mike Krieger——Anthropic 的现任首席产品官，之前曾是 Instagram 的联合创始人，接受了播客 20VC 的采访，Krieger 不仅透露了不少 Anthropic 的产品战略思考，也为 AI 创业的切入点、未来方向等提供了一些观点，以及对 DeepSeek 的思考等。

Key Message：

Anthropic 的目标不仅仅是成为一个「模型提供商」，而是成为客户的「AI 合作伙伴」。目标是构建更深度、更长期的合作关系，而非 API 的「tokens in tokens out」交易。
重视第一方应用 (First-Party Product) 的价值：加速学习、品牌建设、构建持久护城河。Anthropic 认识到「first-party products」(第一方应用) 对于 AI 公司的战略价值，并开始加大投入。这不仅仅是为了增加收入来源，更是为了加速学习、提升模型能力、建立品牌忠诚度、以及构建更强的竞争护城河。
「Day One」心态与长期主义：AI 仍处早期，长期价值创造远大于短期竞争。Krieger 反复强调「we are in like day one around is AI an indispensable part of most people’s work」(我们仍然处在 AI 成为大多数人工作中不可或缺的一部分的「第一天」)。
平衡「生猛」创新与稳健可靠：在快速迭代与用户信任之间寻求微妙平衡。不同于一些初创公司可以更激进地追求快速发布和「move fast and break things」的策略，也不同于大型企业过于保守和缓慢的发布节奏，Anthropic 试图在两者之间找到微妙的平衡点。探索「opt-in」机制等灵活的发布方式，以适应不同用户群体的需求。
聚焦「Agentic Workflow」自动化：Claude Code 的核心价值在于提升开发流程效率，而非取代 IDE。他们更关注 AI 在代码理解、文件查找、代码编辑、任务委托、自动化测试、翻译等方面的应用，这些都是软件开发流程中耗时且重复的任务。
模型身份认同崛起：AI 模型正超越单纯的功能性，通过独特的个性 (Personality)、用户体验脚手架 (UX Scaffolding) 和氛围感 (Vibes) 构建品牌般的身份认同，塑造用户连接与选择的新格局。
AI的「智能引导者」形态：AI 将超越「工具」或「助手」的局限，突破优秀的提示词工程的限制，进化为「智能引导者」，主动洞察用户需求，指引方向，辅助决策，成为用户达成最重要目标的关键伙伴。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

01 初创公司要为

未来的模型构建产品

主持人：我想以一个非常有挑战性的问题开始：作为一名风险投资人，我今天必须判断未来的价值在哪里。但坦率地说，环顾当今世界，我真的不确定。

所以我想问您的是，展望未来，在接下来这十年由AI驱动的时代里，价值将在哪里产生？我经常从创业者那里听到各种不同版本的这个问题。他们经常问我：「我能构建什么，才不会与 Anthropic 或类似的大型实验室直接竞争？」

Mike Krieger：我没有完美的答案，因为这有点像是在预测未来。但我感觉，最有价值的领域将是那些你拥有差异化市场策略（GTM）、对特定行业或特殊数据具有独特知识的地方——理想情况下，最好能同时具备两到三个这样的优势。例如，金融、法律或医疗保健领域的公司。

特别是医疗保健，我接触之后发现它极其复杂，就像一团乱麻。前期工作并不性感，也不是在加速器或短时间内就能完成的。但正是这些前期积累和基础工作，才能在这些领域产生持久的价值。然后，你可以利用基础模型的优势，根据需要进行微调或进行 AI 优化。但真正能让你立足长远、保持竞争力的，是在这些领域销售的能力，是对这些领域的独特理解，以及随着时间的推移，在这些领域不断改进的能力。

主持人：你提到「前期积累」，还谈到差异化的 GTM 和数据源。那么，下一代AI浪潮，更有利于那些已经拥有这些优势，并能应用 AI 的现有垂直SaaS公司呢？还是更有利于那些在这些领域从零开始创建的新公司？哪种情况更多？

Mike Krieger：我认为两者都有机会。

从更高的层面来说，AI和产品设计的关键在于，你必须在展示未来愿景和利用模型当前能力之间，保持微妙的平衡。因为你需要为三个月后的模型能力进行设计，现在的技术发展速度太快了。但同时，又不能过度承诺而交付不足，因为这会严重破坏信任。

如果你是一家初创公司，你可以稍微多做一些「过度承诺」，因为早期用户和尝鲜者更愿意尝试，容忍度也更高。但如果你是一家现有的垂直 SaaS 公司，你说「我们增加了 AI 功能」，用户试用后却发现「没那么好」，或者觉得「它应该能做更多事情」，或者「你说能做 30 件事，结果只能做两件」，那就很糟糕了。

我认为这两类公司面临着非常不同的挑战。对于前者（现有 SaaS 公司），你已经有成熟的产品和用户习惯，你需要预判趋势，但又不能疏远现有客户，有一些好的模式可以做到这一点。对于初创公司来说，你可能还没有数据，或者正在争取最初的标杆客户。你的差异化不在于已建立的关系，而在于描绘未来愿景，并找到快速交付价值的方法，让那些愿意在你身上下注的公司看到希望。

主持人：你刚才提到了初创公司要「为未来的模型构建产品」。现在这个时期非常具有挑战性，因为初创产品的质量很大程度上取决于模型的质量。模型的任何变化都可能对初创公司的产出产生巨大影响，无论是代码软件还是法律平台等等。那么，初创公司应该基于今天的模型来构建，还是应该基于我们对未来模型的预测来构建？

Mike Krieger：我从很多人那里听到，他们的创业公司直到 Claude 3.5 Sonnet 或类似的突破性模型出现才真正起飞。一些创业者告诉我，在某个模型取得突破之前，他们的公司根本算不上公司。比如，模型的准确率从 95% 提高到 99%，对某些行业来说，这就足够接近完美了；或者从 70% 提高到 90%，这种代际飞跃非常关键。

那么，如何判断何时会出现这种飞跃呢？有些创业者在特定领域碰壁多年，无论是在帮助人们编写代码、进行法律分析，还是在医疗保健等领域。他们可能拼凑（用「拼凑」可能有点轻描淡写了，应该说是精心组装）了一套方案，其中可能涉及多种工具。但这套方案要么价格上没有竞争力，因为它需要使用 Opus 级别的高端模型，而这又无法得到底层业务的支持。

但即使如此，这些努力仍然是有价值的，因为当更强大的模型出现时，你就不是从零开始了。通常，那些从模型代际升级中获益的公司，并不是那些在模型发布当天才突然起步的公司，而是那些一直在该领域深耕的公司。以 Cursor 为例，有人给我展示了 Cursor 创始人在 Hacker News 上提交的帖子列表，他们最终取得了突破，但这并非他们的第一个产品或第一次迭代。他们一直在尝试和努力，时间可能不短。所以，他们的成功并非仅仅由模型的快速进步所驱动，而是建立在背景知识、经验积累以及对该领域痛点和成功经验的理解之上，从而让模型能够真正发挥作用。

所以，更简洁地说，不要等待模型变得完美，而要积极探索这个领域，对当前模型的局限性感到沮丧，然后积极尝试下一代模型。这样，你就能感觉到，你终于可以实现你脑海中构想的东西了，只要模型再强大一点点。

02 未来的模型会越来越不同，

而不是越来越相似

主持人：你提到了差异化的 GTM 和差异化的数据。现在有这么多不同的模型发布，而且速度如此之快。我想知道，如果模型层不具备差异化的数据优势，或者差异化的 GTM 优势，那么模型层本身还有价值吗？你是怎么看这个问题的？

Mike Krieger：关于模型层，特别是基础模型层，我认为有三个值得长期投入的领域：

第一是人才。我知道人才很难量化，人才密度到底意味着什么也很难说清。但人才会吸引人才，对吧？你会成为一个磁场，特别是当人才围绕着一个共同的使命或愿景凝聚在一起时。我在 Anthropic 就看到了这一点。我热爱我们的研究团队，感觉每个月我们都能迎来一些重要的新成员，他们可能来自其他实验室或学术界，加入我们。这是一个你必须培养和维护的优势，因为人才流动性很大，他们可以自由选择。你必须保持最初吸引他们的东西，但这非常重要。因为要保持领先地位，需要的不仅仅是量的积累，还需要找到正确的突破口。这是第一点。

第二点，我认为模型随着时间的推移会变得越来越不同，而不是越来越相似。当然，有很多相似的基准大家都在关注。但 Claude 就是 Claude，GPT 就是 GPT，它们各有优缺点。这不仅体现在性格和语调方面，也体现在这些模型真正擅长的领域。对我们来说，编码显然是一个非常重要的垂直领域，我们一直在努力。这并非偶然，我们也并非仅仅满足于「模型擅长编码」就止步不前。我们看到市场对代码模型的需求，看到这么多公司现在依赖 Claude 模型进行代码编写或智能规划，这激励着我们去思考下一代模型应该如何发展，从强化学习的角度来看应该怎么做。所以，第一是人才，第二是专注和模型特性，随着时间的推移，你会深入发展这些特性。

第三点，DeepSeek 发布时，我被问了很多关于 DeepSeek 的问题，比如「DeepSeek 对你们意味着什么？」。我认为，从技术层面来说，我们可以从他们正在做的事情中学到一些东西。但从市场策略和市场地位的角度来看，DeepSeek 几乎没有影响。因为我们与公司建立的合作关系，并非简单的 API 调用，不是他们为了换取输出令牌而发送输入令牌。而是「嘿，我想成为你长期的 AI 合作伙伴，我想帮助你与你的应用 AI 团队共同设计产品，我想与你一起畅想未来，我想不仅仅考虑你的 API，还想考虑 Claude for Work」。这更像是一家公司在提供 AI 伙伴关系，而不仅仅是 AI 模型。

我认为，反过来看失败模式可能更有助于理解。失败模式包括：安于现状，不留住最优秀的人才，仅仅认为模型在基准测试中取得渐进式改进就足够了，以及将API仅仅视为一种用金钱换取智能的方式，而没有考虑如何成为更深度的AI合作伙伴。如果你无法做到这三点，我认为你就有麻烦了。

主持人：当我们审视进步的阻碍或障碍时，你认为今天最大的阻碍是什么？因为在这个问题上，我从不同的人那里听到了截然不同的观点，无论是 Alex Wang 还是 Grok 的 Jonathan Ross。阻碍是算力？数据？算法？还是让模型训练环境更好地匹配真实世界的挑战，而不是单次交互的挑战？

Mike Krieger：我认为是后者，即改进模型训练环境，使其更好地反映真实世界的复杂任务，而不仅仅是独立的、单次的评估。我知道 Alex 也在思考这个问题，因为我们讨论过智能行为的评估，这只是我所说的更广泛问题的一个具体方面。

即使在软件工程领域，软件工程师的工作也不仅仅是编写代码，还包括理解需要构建什么、与产品经理一起制定时间表、深入理解需求和用户用例，然后以可测试和迭代的方式交付成果，并从最终用户那里获得反馈（如果他们构建的是面向公众的产品）。这是一个复杂的工作流程，目前还没有合适的评估方法。有趣的是，我们把最常见的软件工程基准称为「SWE-bench」（软件工程基准），但实际上成为一名优秀的软件工程师，远不止于查看一个 PR、提交一个 PR、然后等待批准。因此，构建能够更好反映真实工作环境的评估和环境至关重要。

我们在 Anthropic 内部也在大量思考办公室专业人士的使用场景，这可能是未来模型能够极大赋能的领域之一。但目前还没有人真正很好地评估这方面。在研究领域，我们开始在评估方面做得更好，例如「人类最终考试」（Humanity’s Last Exam）这类极其复杂、多步骤推理的评估。但目前还没有一种评估方法，能够很好地模拟「我入职一家新公司，快速理解我的角色、组织架构、人际关系、以及在哪里找到所需信息，然后融入到公司的日常运转中」。这是一个难以捕捉的环境。因此，对我来说，弄清楚如何更好地分解这个问题，或者从整体上思考这个问题，是至少在模型进步的一个方面——即模型如何从擅长极其狭窄的任务，转变为更通用的、有用的协作者——所面临的最大阻碍。

主持人：当我们展望模型中数据的未来时，合成数据是否会越来越多地叠加累积？还是人类数据仍将是推动模型进步的主要数据来源？你是怎么看这个问题的？

Mike Krieger：我认为，为了改进模型，你需要一个方案，或许首先用原始的人类数据来引导模型，然后生成所有这些合成环境，让模型可以在其中探索和寻路。

Claude 这周一直在玩宝可梦，这对于我们的研究和工程团队来说，是一个有趣但有点分散注意力的消遣。大家都在关注 Claude 玩宝可梦的直播。我认为游戏是一个有趣的例子，你可以想象在同一个游戏中进行许多不同的运行，并设置一些约束和规则。但当问题空间不如「你是否走出了常磐森林？」（我没玩过宝可梦，只是看直播学的）那样明确时，情况就会变得更加复杂。但能够采用黄金路径，并综合各种方法仍然很重要，这样你才能思考模型如何在不确定性中进步。

所以我认为这绝对需要混合方法，最好的模型将来自优秀的人类数据和合成数据的结合。例如，对于代码模型来说，需要有良好的基础代码和示例，但也要能够探索各种各样的路径。另一个仍然被低估的部分是，如何衡量和评估模型的性格，以及如何获取性格数据。我用一个非常宽泛的词——「氛围感」（Vibes）来形容。模型的「感觉」到底是什么？我们实际上并不清楚，直到我们真正坐下来体验它。

在某种程度上，这是一个很好的特性，因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如，当我们从 Claude 3.5 升级到 3.7 时，人们可能会说「Claude 似乎更友好了，但也更笨了」，或者「Claude 似乎更愿意回答我的问题了，但我希望它在创意写作方面表现更好」。这些东西很难评估。这又回到了数据问题。因此，我认为重要的是，既要有关于这些更软性技能的数据，也要有评估这些技能的方法。

03 模型质量与产品体验强相关，

未来用户不需要自己选模型

主持人：我发现一件很奇怪的事情，我们现在可以选择使用哪个模型。你可能会说，当然可以，因为它们各有专长。但当我展望未来三到五年，我认为你不会再需要选择使用哪个模型了，就像你不会选择使用哪个谷歌一样。我是完全错了，还是完全没抓住重点？

Mike Krieger：不，你没有错。我喜欢一个来自人机交互领域的概念，你可能听说过「泄漏的抽象」（leaky abstractions，抽象层无法隐藏细节，需要使用者了解底层机制）这个术语。对于软件构建者来说，我们试图完美地封装所有复杂性，隐藏在一个小小的「外壳」之下，让用户无需考虑任何底层细节。但现实是，目前大多数AI产品的设计都存在「泄漏的抽象」问题。比如，用户需要选择模型，这根本不应该发生。为什么要用户选择 Opus、Haiku 或 Sonnet？大多数人根本不明白它们之间的区别。或者，如果你打开 OpenAI 的模型选择器，里面有很多模型，每个模型都有其存在的理由。但总体体验却是，为什么要我选择这个而不是那个？这个功能在这里可用，但在那里不可用。我们自己也深受这个问题困扰。模型选择是第一个「泄漏的抽象」。

第二个是，一旦你理解了这些模型的构建方式，你就会知道它们会积累上下文，每次对话都会重放完整的上下文，以便进行下一次推理。这导致了每次对话都不同的情况。我总是想到，当你与同事交谈时，你们可能有不同的邮件往来，但在所有这些邮件背后，仍然是同一个同事。如果你提到他们最喜欢的球队，或者你们一起参与过的项目，他们不会说「我不知道你在说什么」，或者「我需要去检索我的记忆」。你们之间存在着一些共享的基础知识。这是另一个「泄漏的抽象」，我们迫使用户去理解模型的工作方式，但我不认为用户需要理解这些。

最后一个是提示工程（prompting）。尽管提示工程已经发展了很多，我们也做了很多工作来优化提示，将简单的人类提示转化为模型最优的提示。但我希望提示工程对用户来说是完全透明的，而不是用户需要主动参与的事情。如果模型对问题缺乏清晰的理解，或者需要更多帮助来理解问题，模型应该通过对话来澄清，而不是让用户去区分谁是优秀的提示工程师，谁不是。现在，提示工程的差距正在逐代缩小，但我希望我们能进一步消除这个差距。

主持人：你如何看待模型质量与产品用户体验（UX）之间的关系？以及如何权衡这两者，并理清它们之间的关系？

Mike Krieger：你不能再将两者分开看待了。

我认为，要成为一名优秀的 UX 设计师，就必须同时考虑模型质量。我回想起 Instagram 的产品设计会议，那时我们讨论的是像素、一些合成数据，或者真实数据，比如用我的 Feed 数据重新格式化成我们提议的 UX 界面。那时，产品设计中没有太多不确定性。你把产品发布出去，人们可能会以某些方式使用它。但如今，设计师、产品经理，尤其是工程师，都需要思考：「我实际上是在围绕一个根本上不确定的系统设计脚手架和产品。」这意味着模型质量、提示工程等所有后端的东西，都成为了产品设计的一部分，并且会对产品产生直接影响。

举个例子，你可以提示 Claude 是否要提出后续问题，这可能在产品的某些部分是你想要的，但在其他部分则不然。你也可以提示 Claude 是否要花更多时间思考问题，进行更多推理。这些都是你在产品设计前期需要做出的决策，它们会在实际产品中体现出来。

另一方面，正如我们之前讨论的，无论是创业公司的创始人，还是传统的 B2B SaaS 公司，都需要理清模型的发展方向、模型的当前能力以及用户的需求。这同样适用于你的产品设计。你需要提前进行评估，看看你想要做的东西是否能够用现有模型实现，或者至少要关注模型可能达到的水平。但模型会随着时间推移而变化，产品也会变化。如果你没有一个良好的评估框架，甚至没有回归测试评估，你最终可能会发布一款产品，但三个月后，用户会觉得「产品以前很好用，但现在好像出了问题，不再满足需求了」。而你却不确定是模型变了，还是产品设计变了，还是引入了不同的功能，或者是系统提示变得更长了。在很多方面，这都是我做过的最复杂的产品开发工作。

主持人：Sam Altman 曾经说过，作为一家初创公司，他们的乐趣之一是可以更快地发布产品，不必追求完美。但随着公司规模扩大，每次发布都承受着越来越大的压力。你如何看待「发布不必完美，先让用户用起来」的理念，以及现在 Anthropic 已经是一家拥有数百万用户的巨型公司，你作为产品负责人，又是如何考虑这个问题的？

Mike Krieger：我经常思考这个问题，尤其是在我们有不同的产品界面和受众，他们对稳定性的期望和对前沿技术的渴望都不一样。

例如，在 API 产品中，人们重视的是可预测性和稳定性，以及选择更面向未来的技术。所以，API 产品可以采用「选择加入」（opt-in）的方式。我记得我们推出了提示缓存（prompt caching）功能，这能为用户节省大量成本。最初，我们通过一个 beta header 让用户选择加入。我们在 API 方面做的很多事情都是以这种形式进行的。但如果你把这种方式用于面向客户或更偏消费级的产品，让用户「选择加入」就显得很逊色了。你肯定希望能够迭代发布，进行实验，你不想完全破坏用户体验，但你可以获得更多的实验许可。

然后，我们还有企业客户，他们在企业环境中使用 Claude for Work。我认为，AI 在企业中的应用仍然处于早期阶段。所以，你可以比那些成熟的公司（比如 Salesforce，我不知道他们每年发布多少次，但很多这类公司一年只发布两到三次，而且通常围绕着大型活动进行）更灵活一些。我们离那种发布节奏还很远，我们仍然发布得很快，但说实话，我们仍在寻找平衡点，比如是每月发布一次？还是尽可能频繁地发布？或者采用某种管理员选择加入的机制，但这也会增加复杂性。

所以，这是一个很好的问题。我认为，关于发布的「生猛程度」和发布速度，我们还在积极讨论中。我们希望尽快将新功能推向市场，因为你不确定用户会如何接受，你需要不断学习。但随着知名度的提高，以及越来越多的人开始依赖你的产品来完成工作流程，你就不能再像以前那样随意对待发布了。

04 DeepSeek 的启示：

学会营销自己、快速发布产品

主持人：我和 Alex Wang 讨论过这个问题，他认为我们严重低估了中国在AI方面的能力。你是否同意我们低估了中国？

Mike Krieger：是的，DeepSeek 的出现让人们感到惊讶，似乎很多人都没想到中国有如此尖端的研究团队。但如果你一直关注这个领域，这部分内容本不应该令人惊讶。我们很早就看到 Instagram 在中国被屏蔽，然后出现了一个平行的创业世界。如果 Facebook 和 Instagram 被屏蔽，会发生什么？会涌现出什么？结果是，那些产品通常质量很高，展现出很多创造性思维，并且也实现了大规模应用。他们解决了与 Facebook 面临的规模相当的技术挑战。

所以，低估或继续低估中国在 AI 方面的能力，绝对是一个错误。无论是在前沿模型训练方面（尤其是在他们能够获得算力的情况下），还是在持续创新方面，中国都有巨大的潜力。那种认为「他们只是在复制其他地方已经成功的东西」的观点，是一种非常西方中心论的视角，我在传统的软件领域也看到过这种观点。但这忽略了中国市场内部涌现出的差异化产品，以及这些产品有时会走向海外的事实。TikTok 就是一个有趣的例子。

主持人：在我们转向「终极产品」之前，DeepSeek 的出现是否让你重新思考了 Anthropic 的发展方向？或者改变了 Anthropic 的策略？

Mike Krieger：在架构层面，有一些值得思考的地方。我不能代表研究团队发言，因为他们才是真正的专家。但他们确实认为 DeepSeek 的一些做法值得考虑，或者重新评估一些之前考虑过但后来放弃的想法。我认为这方面是有影响的。

有趣的是，我们原本就计划在我们发布推理模型时展示「思维链」（Chain of Thought）。所以，DeepSeek 的出现并非让我们重新考虑这一点，但看到其他人也这样做，确实很有意思。在用户界面方面，也有些细节值得借鉴。Grok 现在也在他们的模型中加入了「思维链」展示。所以，我很想看看「思维链」会如何发展。对于你之前提到的蒸馏问题，这可能是更多实验室选择不展示或模糊「思维链」的原因之一。

另一方面，从产品角度来看，DeepSeek 的出现有两点值得深思。我认为 DeepSeek 最被低估的一点是，他们从默默无闻到在很多圈子里比 Claude 更出名，这简直是不可思议的。就连 Greylock 的合伙人都在问我对 DeepSeek 的看法，这并非玩笑，而是真实发生的事情。

我开始思考，DeepSeek 到底做了什么，才取得了如此大的突破，而 Claude 却没有做到？我认为，这与当前的世界局势密切相关，以及「DeepSeek 更便宜」的叙事。无论这是否完全属实，或者他们是否真的找到了某种突破，这个故事本身就很有吸引力。坦率地说，我也和我们的营销团队讨论过，我认为我们还没有充分对外讲述 Claude 的故事，没有充分展现 Claude 的独特之处或值得关注的地方，比如Claude 3 是在规模远小于其他实验室的团队下训练出来的，但仍然达到了最先进的水平。我们一直以来在算力使用方面都非常高效。我不知道这是否是他们有意讲述的故事，还是媒体自发地为他们塑造的故事，因为这确实是一个非常引人入胜的故事。在那个特定的时间点，这种独特性非常重要，这些因素都为 DeepSeek 的崛起创造了绝佳的背景。我认为这方面做得很好。

第二点，在产品方面，DeepSeek 从没有产品，到推出了一款 iOS 应用，并且在细节方面做得很好。对我来说，这就像一个很好的推动，甚至可以说是「猛推」，提醒我们应该更快地将一些想法推向市场，而不是像之前那样过分关注每个细节的完美程度，而是更愿意将产品发布出去，并在实践中学习。因为有时，体验的新颖性本身就很有价值。这是大多数人第一次体验到「思维链」的实时展示，这非常有趣。我希望我们能早点做到这一点，因为这本可以为用户带来新奇的体验。

主持人：如果你观察用户使用情况，你会发现新兴市场的使用率很高，用户留存率也很高，但在西方市场却并非如此。你如何看待 DeepSeek 作为一个可持续的、可信的威胁？他们已经达到了一定的知名度，这是否意味着他们有能力持续发展？

Mike Krieger：我认为，我们现在做的所有这些以 AI 为先导的、实验室生成的产品，即使在六个月后或一年后，如果仍然只是「我可以问问题，偶尔还能主动提出建议」，那将是缺乏差异化和吸引力的。真正有价值的产品应该是「哇，我现在可以做一些独特的事情，因为我使用了 Claude 或 DeepSeek 或其他产品，它为我节省了几个小时的工作，让我变得更聪明，让我成为生活中重要的人更好的合作伙伴」。产品必须超越表面上的实用性。当然，有些人会发现更深层次的价值，他们也是你现在的 DAU。

但对于很多人来说，他们只是试用一下，用它生成一首诗，写一封给儿子的信，这些功能在当下可能提供了一些价值，但我仍然认为，我们还处于 AI 成为大多数人工作中不可或缺的一部分的「Day One」。我认为，对于 DeepSeek 和我们所有公司来说，产品能否保持持久竞争力的关键在于，谁能率先实现这一目标，并随着时间的推移可持续地发展，拥有正确的产品设计、正确的集成和正确的部署策略，从而真正取得成功。谁能构建出这些产品，这通常也是我作为投资者最关心的问题：模型提供商何时才能转型为应用提供商？

05 Claude 想从模型提供商

转变为应用提供商

主持人：是什么吸引你们将资源投入到成为应用提供商，而不仅仅是模型提供商？

Mike Krieger：我主要关注两个标准。首先是通用性。尽管 Anthropic 的团队规模很大，但我们的产品团队可能只有十分之一。与 Instagram 成立第二年时相比，我们的产品团队规模已经很大了，但与大型 SaaS 公司相比，仍然很小。我们介于两者之间。但我们支持的产品却很多，包括 Claude Code、API、Claude、Claude for Work 等等。

所以，我认为通用性非常重要。即使我们选择了一个 Persona 或一个垂直领域作为目标，我们构建的东西也应该具有通用性，可能在用户层面会有一些专业化，但在底层架构层面不会。我不希望我们构建大量垂直化的、高度定制化的产品，只适用于特定的工作流程或用例。我们更关注翻译、转录、客户服务这类更通用、同质化的领域，这似乎是正确的方向。

主持人：我同意，除非……

Mike Krieger：除非考虑到工作流程知识，工作流程知识意味着你可以长期保持产品的差异化优势。例如，如果你是一个专业翻译人员，你可能会需要一些针对翻译工作流程的特定功能。

主持人：如果你是高级用户，那可能是这样。但如果你不是翻译人员，只是你的母亲，她可能一个月只用一次翻译功能来处理一些零星的事情。

Mike Krieger：是的，我认为「我们可以帮你翻译这个」这种基本功能，如果想让个人用户每月支付 10 美元订阅费，感觉有点悬，因为现在的模型在这方面已经做得相当好了。也许你是对的，在基础 AI 产品方面，没有太多差异化空间。但如果你使用像 ElevenLabs 的控制台和工作台，你会发现他们构建的很多功能，显然是为那些每天翻译数小时内容，或者以可靠的语音为大量内容配音的专业人士设计的。

Descript(一款 AI 视频编辑工具）的产品设计是我见过 AI 领域最好的之一。他们显然在工作流程方面投入了大量时间。我曾经为了一个个人播客使用过 Descript，我发现它显然是由那些日复一日地坐在工作流程中，并理解工作流程的人构建的。所以，我认为我们可能在观点上达成了一些共识，即专业用例和由此解锁的工作流程是有价值的。而在消费级甚至轻专业级（prosumer）方面，从基础 AI 产品的角度来看，模型已经足够好了。

主持人：当你审视 Anthropic 今天擅长的领域，比如我们之前提到的代码方面，你们做得非常出色。Anthropic 是否有计划推出自己的 IDE 或代码智能体？你是如何从产品角度看待这个问题的？

Mike Krieger：我认为我们必须谨慎选择我们的发力点。即使是我们刚刚发布的 Claude Code，最初也是作为内部命令行智能编码工具构建的，因为我们只是想加速我们自己的团队的工作效率。在观察了几个月之后，我们觉得它还不错。它并非解决所有编码问题的方案，也无法取代 IDE，但它在很多情况下对我们来说都很有用，所以我们希望看到人们在真实世界中使用它。然后，你就会面临发布的成本。你需要为它命名，找到合适的包装，制定市场策略。所以，我们在这方面非常谨慎。

我认为，从当前模型的水平来看，你仍然需要亲手操作键盘，仍然需要与模型进行交流，比如「我做了这个，这样做对吗？」、「好的，我们沿着这个方向继续」、「太棒了，提交 PR 吧」、「不，我们走错了方向，让我们回退一下」，然后在实际使用中不断迭代。这就是为什么我认为，在 IDE 和完全自主的 Devin（Cognition）之间，存在着一个中间角色。认知 Devin 可以完全委托任务，但目前的模型还无法做到这一点。

Claude Code 可以用于某些类别的任务，我们的产品工程师喜欢 Claude Code，因为很多产品工程工作都是关于构建端到端产品工作流程的，比如更新后端、创建前端、提交翻译、或者解决一些小问题。Claude Code 非常擅长处理这类需要在不同环节之间进行智能协作的任务。我上周提交了两个 PR，这是我加入 Anthropic 以来第一次写代码，这让我有点伤感。但我终于有机会使用 Claude Code 了。我以前从没打开过我们的代码库，对代码结构一无所知，但 Claude Code 非常擅长找到包含正确代码片段的文件，然后进行编辑。当然，并非所有人都和我处境相同，但对于这类用例来说，Claude Code 确实非常有价值。

所以，当我思考编码领域以及我们可以在哪里发挥作用、增加价值时，我认为我们的重点应该放在智能体方面，而不是 IDE 方面。有些公司每天都在思考如何打造一款出色的 IDE，这涉及到低延迟的自动补全、合适的集成、如何与 VS Code 插件生态系统协同工作等等复杂的问题。这需要大量的工作，而且与我们正在做的事情截然不同。我认为，我们可以在与模型对话、利用模型完成实际工作、构建智能协作循环方面发挥重要作用。但我们也认识到，目前的模型在很多用例中还无法完全放手使用，还需要更多的人工干预。

06 模型迭代很频繁，

但开发者不应该为之焦虑

主持人：我们是否正处在「产品营销噩梦」之中？我的意思是，这周 DeepSeek 发布了新模型，OpenAI 也发布了新模型，Anthropic 也发布了新模型，Mistral 在 10 天前也发布了新模型。几乎每天都有新发布，世界可能会变得麻木。你是如何看待这种情况的？这会如何影响你对产品发布和信息传递的思考？

Mike Krieger：是的，现在的情况比以前复杂得多。在 Instagram，你需要注意的大事件是提前就已知的，比如 WWDC 大会周，或者 9 月份的 iOS 发布会，或者其他大型节日。从产品营销的角度来看，要容易得多。现在的情况让我想起「Crossy Road」（一款游戏），你需要像过马路一样，观察来往的车辆，找到发布产品的「窗口期」。「好吧，车开过去了，现在有个空隙，明天发布吧，或者现在发布也行。但是，哦，现在又听到传言说……」

现在的情况要困难得多。我也从其他实验室的朋友那里听说，大家都在试图解读「茶叶（行业内的各种小道消息）」，看看「现在风平浪静吗？现在可以发布吗？或者我们下周二发布怎么样？」。这需要一种完全不同的方法。

我们这次发布 Claude 3.7 Sonnet，周一发布，周日晚上 9 点才最终确定博客文章，这在营销角度来看不是最佳实践。我们还在周日向媒体记者做简报。但那时已经是所有工作都完成、准备就绪、可以发布的时候了。所以，这需要快速反应和灵活应变的能力。甚至包括模型卡、评估报告、对比表格等，这些东西中包含的数据，可能是在前一周发布的模型的数据（比如 Grok-3，就在一周前发布）。所以，这需要完全不同的应对方式。

主持人：当 Grok-3 发布时，Anthropic 和 OpenAI 的每个人都会想「糟糕，他们又超过我们了」，或者「太棒了，我们赢了」吗？

Mike Krieger：我认为，这需要一种心态，我经常试图提醒团队，模型发布是会不断发生的，在任何时候，你都可能会经历「领先-落后-又领先」的循环。你必须适应 AI 领域的这种节奏，不能因为一次发布就过于沮丧。当然，不可避免地，有时你会很幸运，你发布的产品或模型在两三个月内都能保持领先地位，但有时可能只有一周。你不能对这两种情况都反应过度。你不能安于现状，也不能过于沮丧。

我认为真正有用的是，展示一张图表，我几乎在每次销售会议上都会展示这张图表，它展示了从 Anthropic 成立到今天的里程碑。在任何时间点，你都可以说「哇，Claude 2 看起来已经很落后了」，或者「Claude 3 是最先进的」，但很快又会被超越。你需要关注的是长期发展轨迹，并相信你将持续进步。这是第一点。

第二点，要提醒自己，如果每个人每天都仅仅因为评估指标的变化而切换模型，那将是一件非常疯狂的事情。这不仅对你的用户群来说是疯狂的，而且也会让整个行业变得更加疯狂。随着时间的推移，你会逐渐认识到，人们部署模型时，并不仅仅是简单地使用模型，他们还会进行微调，或者进行大量的定制工作，以使模型非常适合特定的用例。模型切换不是一夜之间就能完成的事情。你仍然是模型选择器中的三四个选项之一。例如，在编码环境中，你仍然有机会。但这确实需要一种心态，我不知道是需要找到一种冥想式的、抽离的角度，还是仅仅是习惯于被超越，或者两者兼而有之。但可以肯定的是，每次有模型发布，我猜每个实验室都会关注直播，查看评估指标，然后意识到「好吧，我们有工作要做了」。

主持人：我认为品牌是最重要的。就像你说的，人们不会每天都切换模型，他们会说「我是 Claude 用户」，或者「我是ChatGPT用户」，他们已经对他们使用的模型产生了认同感。你同意这种说法吗？

Mike Krieger：我同意这种说法，尤其是在消费级产品方面。

我最近在读 Ben Thompson 的文章，他经常邀请 Nat Friedman 和 Daniel Gross 参加节目，他们也谈到有些人是 Claude 用户，有些人是 ChatGPT 用户。我认为这种现象确实存在，用户会喜欢某个模型的个性、界面设计或整体氛围感。这让我想起了我们与 Snapchat 多年来的竞争，以及更早之前，人们会推出新的产品，比如「Instagram，但只面向高端摄影师」，或者「带有一些额外功能的 Instagram」，或者「每天只能发一张照片的 Instagram」，比如 BeReal。

我有一个虚假的公式（我显然不是 Anthropic 的数学家），社交网络是由产品形式（format）、受众（audience）和氛围感（Vibes）组成的。对于 Instagram 来说，产品形式包括 Stories、Feed，后来又有了 Video；受众最初是喜欢复古风格的摄影师，后来扩展到对视觉叙事或视觉媒体感兴趣的任何人；但即使我们的产品形式与 Snapchat 甚至 Facebook 更相似，Instagram 的氛围感也截然不同。我不知道 AI 产品的虚假公式是什么，但我认为它与社交网络的公式有某种相似之处。其中，模型个性可能是其中一个因素，产品脚手架的规范性（scaffolding prescriptiveness）可能是另一个因素，然后就是氛围感。氛围感很难衡量，但它绝对存在。

07 第一方产品可以更好帮助迭代模型

主持人：我们之前提到了模型产品，以及构建这些产品。当你思考为消费者构建产品，与构建公司的API部门时，你是如何权衡 API 业务和终端用户消费者业务之间的平衡和权衡的？

Mike Krieger：我认为，通过一方产品，我们可以更快地学习。举一个非常具体的例子，在 Claude Code 内部部署一周后，我们就发现了一个问题，即模型没有充分利用它能够访问的某个工具。这个问题直接反馈到了 Claude 3.7 Sonnet 的改进中。第一方工具的内部试用，直接带来了下一代模型的改进。我们还在其他一些地方也发现了类似的情况。但通过第三方产品，就很难获得这种直接的反馈。第三方合作伙伴会告诉你哪里出了问题，但这种反馈总是隔着一层。即使我们与你提到的那些编码初创公司密切合作，情况仍然不同。因此，第一方产品在学习方面具有很大的价值。

另一方面，一方产品也更容易建立用户粘性和品牌忠诚度。我认为，与仅仅建立 API 相比，如果能围绕第一方产品建立品牌，会更容易。我们为很多编码产品提供技术支持，这对于业内人士来说是显而易见的，因为 Claude 通常是下拉选择器中的默认选项。但并非所有人都了解这一点，而且 API 也不是用户下载或安装的产品，他们不会告诉朋友。但 API 也是我们获得巨大分发渠道的途径。我们不可能自己发明所有公司，通过 API，我们可以扮演更像投资者的角色，看到更多的可能性，而且目标也不止一个。

因此，从资源分配的角度来看，API业务和第一方产品业务的投入相当均衡。如果说有什么不足的话，那就是我们对两件事的投入略有不足：一是加快第一方产品的迭代速度，这是我目前最关注的事情；二是 API 方面，我们如何在「令牌进，令牌出」这种基本模式之上，构建更高级的抽象。每次我们这样做，都能收到用户的好评。无论是帮助模型进行智能规划和自主工作，还是让模型构建更多的知识库和知识图谱，来反映公司的内部运作方式（如果你需要构建内部知识产品），无论是完善工具使用，还是理解大量上下文并保持跨对话的记忆，这些问题都值得我们在 API 方面努力解决。因为我们可以将我们在模型训练方面学到的知识，直接应用于 API，并围绕 API 构建优秀的产品。这就是我对这两者的看法。但这是一个新问题。在 Instagram，情况很简单，95% 是产品，5% 是 API。

主持人：为了提高一方消费级产品的开发速度，你现在能做什么，或者将来会做什么？

Mike Krieger：我认为有两件事。首先，要认识到我们目前运行的仍然是初创公司模式。即使公司发展势头良好，API 业务也表现出色，用户也在使用 Claude 并升级到 Claude Pro，但我们仍然处于早期阶段，仍然面临着「要么成功，要么失败」的局面。我们需要以初创公司的思维方式来运作。这意味着更快地将合适的人聚集在一起，忽略组织边界。我认为我们变得过于僵化了，过于强调「这是某个团队的职责」，或者「这个季度无法完成，因为它不属于这个团队的 OKR」。

我理解组织为什么会发展成这样，有些僵化是自然而然的，但我们现在承受不起这种僵化。所以，现在的重点是找到合适的人，让他们尽快聚在一起，清除所有其他干扰，然后像初创公司一样快速行动。清除我的日程安排，让我能将更多时间投入到产品评审和设计评审中，而不是行政管理工作中。

主持人：DeepSeek 的出现，是否展现了约束条件的好处？西方公司，尤其是你们和OpenAI，是否资金过于充裕了？

Mike Krieger：我认为，更准确的说法是，我们的产品获得的认可度，超出了它们实际的产品市场契合度，因为它们仍然是获取模型的最佳途径。我认为，这种情况不会持久。这不是我们可以安于现状的理由。而且，我认为我们没有很好地服务用户，因为我认为我们还没有做出真正合适的产品。这既是我每天早上醒来感到压力的事情，也是激励我的事情，取决于当天的心情。我认为我们在产品方面还有很多工作要做。

08 后悔没有更早做第一方产品

主持人：OpenAI在哪些方面比你们做得更好？

Mike Krieger：他们更快地发布了 V1 版本，有时甚至在模型尚未完全准备好的情况下就发布了。

主持人：他们在哪些方面比你们做得更差？

Mike Krieger：可能是产品个性和他们构建的功能的连贯性。

主持人：在你尊重的其他模型提供商中，你最尊重哪一家？

Mike Krieger：OpenAI。我认为他们在第一方产品开发和 API 之间取得了平衡，他们的 API 也被大规模使用。而且，我认为他们经常「先做简单的事情」，这是 Instagram 的一个原则。

主持人：如果让你从头开始重建 Anthropic 的产品和技术栈，你会做哪些不同的事情？

Mike Krieger：我认为，我们在去年构建的非常有价值的东西，现在感觉对信息架构造成了一些成本。这听起来可能很书呆子气，但基本上，用户不应该需要考虑项目、工件和聊天，以及它们之间的关系。

在产品方面，我认为，应该彻底抛弃这些概念，思考真正重要的是什么：你是否在正确的对话中获得了正确的上下文？你是否总能知道下一步该做什么？Anthropic 和 Claude 本身是否能成为有用的指导，引导你完成最重要的工作？这与「我知道如何创建一个项目」这种范式不同。如果你擅长创建项目，产品会很棒，但这需要很多步骤。

我认为，在技术栈方面，Claude AI 和 claude.ai 最初只是作为模型的展示，并没有在很多方面构建成更复杂、多产品系统的基础。我认为，我们目前正在积极努力，拆除一些旧的架构，重建核心用户体验，让用户体验更好。现在的用户体验并不好，感觉像是产品不断演进的产物，最初是为了满足特定目的而构建的，但现在却被要求做更多的事情，以至于增量式改进变得越来越困难，速度也越来越慢。

主持人：在过去 12 个月里，你在哪些方面改变了看法？

Mike Krieger：第一方产品的重要性。我之前看到 API 业务的增长，认为我们应该将更多时间投入到 API 方面。但我现在认为，如果你不平等地投资，甚至更多地投资于一方产品，你就会错失良机，并且无法建立持久的护城河。

主持人：在这方面迟到，对你们造成了多大的伤害？

Mike Krieger：我认为影响很大。以 DeepSeek 为例，理想情况下，关于「不仅仅只有一个领先的 AI 产品或 API 可供使用」的叙事，应该由我们来主导。我认为我们在这方面受到了损害。

09 未来的开发者要学会

正确地委托任务

主持人：你既使用 Cursor，也与 Codium 和 Stablity AI合作。我想问你，当你看到开发者行为的变化，以及像你说的，你加入 Anthropic 后第一次写代码的经历，你认为未来三到五年，软件开发人员的角色会是什么？

Mike Krieger：我认为，软件开发人员的角色已经开始发生变化。我很早就成为了 GitHub Copilot 的忠实拥护者，我的评价甚至一度出现在他们的主页上（我不知道现在还在不在），因为我看到了它的潜力。即使在 GPT-4 发布之前，我就尝试用它来做 Swift 开发。我会画出我想构建的界面的 ASCII art，然后让 GPT-4 生成代码，自己去泡杯咖啡，过一会儿回来，它已经生成了 80% 的代码。现在，使用像 Claude 3.7 Sonnet 这样的模型，代码生成的完成度可能会达到 95% 到 99%。

我认为，未来软件开发人员需要掌握的技能，首先是跨学科的，或者说是多面手的。你需要知道要构建什么，这与知道如何精确实现它同样重要。我喜欢我们工程师的这一点，我们很多好的产品想法都来自于工程师，来自于他们的原型设计。我认为，这就是未来很多工程师的角色。

第二，当你的大部分工作变成评估 AI 生成的代码时，代码审查也会发生很大变化。我自己也经历过，我提交了一个 PR，一些评论指出「Claude Code 有时会这样做，但在这种情况下，我们实际上不使用默认参数」。我当时想「好吧，真糟糕」。如果是我自己编写代码，我可能会更好地注意到这些模式。因此，我们需要在两个方面共同努力：一方面，模型和模型基础设施需要更好地从代码库和代码审查中学习，以便生成更符合公司代码规范的代码；另一方面，我们如何从主要的代码编写者，转变为主要的任务委托者和代码审查者？

我认为，这就是未来三年软件开发工作的面貌：提出正确的想法，进行正确的人机交互设计，弄清楚如何正确地委托任务，然后弄清楚如何大规模地审查代码。这可能需要结合静态分析或 AI 驱动的代码分析工具，来检查生成的代码是否存在安全漏洞、缺陷或 Bug。计算机视觉也会发挥作用，比如 UI 的自动化测试。

未来，理想的情况是，你委托给 AI 一个任务，过一会儿回来，它会告诉你「我已经完成了，我评估了三种方案，并在浏览器中进行了测试，这是效果最好的一种方案，我还用另一个智能体进行了漏洞扫描，一切看起来都很好，你只需要确认这个关键代码片段是否符合你的预期」。这样，你突然就变成了管理者和任务委托者，而不是仅仅作为合作伙伴参与到工作流程中。

主持人：你说「三年太久，一年更现实」，我同意你的看法。当我们看到技术发展的速度如此之快，你认为产品发布的加速会达到平台期或渐近线吗？还是会继续保持这种指数级增长的势头？

Mike Krieger：这是一个我经常思考的问题。今年年初，我审视了我们的产品开发流程，以及我们在哪些环节使用了 Claude，哪些环节没有使用。你会发现，Claude 在很多环节都很有用，比如从最初的想法生成 PRD（产品需求文档），当然在编码方面也很有用，Claude 还可以帮助综合人们对产品的各种讨论，找到有争议的问题，推动达成共识。但真正决定要构建什么仍然是最难的部分。实际上，只有通过大家聚在一起讨论利弊，或者一起探索 Figma 原型，才能最好地解决这个问题。

因此，对于任何动态系统来说，如果你优化了某个环节，很快就会有其他环节成为瓶颈或关键路径。我认为，达成共识、决定要构建什么、解决真实的用户问题、以及制定连贯的产品策略仍然非常困难。模型可能还需要一年以上的时间才能解决这个问题。这就是为什么我对小型创业团队能够探索这个领域感到乐观。我从在 Instagram 和 Artifact 的经历中了解到，对于小团队来说，达成共识可能只是下午茶时间的一次对话，而不是像大型公司那样，需要驾驶一艘巨轮，对客户做出承诺等等。达成共识仍然是一个非常人性化的问题，我认为至少在三年内，模型还无法在如此抽象的层面上解决这个问题。

10 蒸馏不是关键，

数据才是关键

主持人：当我们有这么多不同的模型和供应商时，开源是一个非常可行的选择。蒸馏（distillation）技术是否被妖魔化了？如果蒸馏技术最终能推动领域进步，即使在实验室内部，假设每个实验室都在使用蒸馏技术，能够将高端模型的知识转移到低延迟、更经济的模型中，难道不也是非常有价值的吗？

Mike Krieger：我认为蒸馏技术有趣的地方在于：第一，我们是否希望任何国家都能从其他国家的模型中蒸馏出模型？我个人的答案是否定的。我认为，随着 AI 能力的增强，从国家安全的角度来看，对这个问题进行深思熟虑是有价值的。第二，为了让技术进步以当前的速度持续下去，并实现长期可持续发展，实验室需要能够将所有的训练和创新商业化。我认为找到合适的商业模式至关重要。像 Llama 这样的开源模型，他们能够从自己的研究、数据摄取和训练中做到这一点。所以我认为，蒸馏技术并非解锁这些能力所必需的，而且还会带来其他问题，甚至包括服务条款方面的问题。

主持人：Llama 的发布是否表明模型本身没有价值，所有价值都在于数据？因为 Facebook 愿意免费发布 Llama，是因为他们知道没有人能复制他们拥有的数据？这是不是说明了这一点？

Mike Krieger：这是一个有趣的问题，值得思考。

Llama 的质量是否归功于他们可以（我不知道他们是否公开承认，但他们显然可以）使用 Instagram 和 Facebook 等的数据进行训练？Gemini 是否因为能够使用 YouTube 的数据进行训练而表现更好？我更清楚地看到 Gemini 从中获益。例如，每当他们展示出色的视频理解演示时，我就会想，他们可能拥有世界上最大的视频存储库，并且可以训练大量视频数据。但在 Facebook 方面，这一点不太清楚。我从未听人说过「Llama 非常擅长生成在社交媒体上表现良好的内容」。Llama 似乎只是一个通用的模型。所以，这又回到了我们之前的对话，价值在于你的团队有多优秀，你是否拥有所需的基础数据，以及你的模型在实际用例中有多有用。后者才是最重要的。

我真希望我一开始就强调这一点，因为撇开评估指标不谈，评估指标对于内部研究和持续改进非常有用，但它们并不能说明模型是否优秀，是否能胜任特定任务，或者即使模型擅长某个任务，它是否只在非常狭窄的场景中表现出色，还是创业者可以依赖模型作为产品中的「代表」。所以，我认为对于实验室来说，价值在于团队，在于模型在真实世界中执行正确操作的能力，并且要避免过多的不确定性，以免变得不可靠。

11 AI 是人际关系的补充，

但不会取代真实互动

主持人：在AI领域，你认为未来最主要的技术或产品挑战是什么？但目前还没有人谈论，但你认为至关重要的？

Mike Krieger：随着模型能力越来越强，一个被低估的挑战是「辨别力」（discernment）和隐私。随着模型变得更强大，它们也会变得更博学。你可能会与模型讨论各种事情，从非常私密的事情，到对公司来说非常敏感的事情，或者模型可能会访问你公司的所有数据。每个人都喜欢谈论智能体之间的交互，但很少有人思考这两个因素的交集：你是否信任你的 Mike 智能体或 Harry 智能体在外部世界活动，而不会被「越狱」，或者泄露它所知道的私密或敏感信息？

我的比喻是我的五岁女儿，和刚认识的人相处时，她还不太能区分什么是家庭秘密和隐私，什么是可以和新朋友或收银员谈论的事情。辨别力是人们随着时间推移而获得的技能，我认为模型在这方面被严重低估了，从模型能力的角度来看，这方面的研究可能也不够。因为模型从根本上来说，是想变得有帮助，但这并不总是你想要的。这不仅关乎安全问题，也关乎隐私和数据安全问题。

主持人：你是否担心你的五岁女儿会更习惯与模型和智能体交谈，而不是与人类交谈？

Mike Krieger：我已经和 Alex Wang 就这个问题进行过很多次对话，因为他认为未来大多数朋友都将是 AI 朋友。我不认为他是错的。我认为，这种情况已经开始出现，比如人们花大量时间玩在线游戏，游戏中的一些角色是 NPC（非玩家角色），你可能会在虚拟世界中感到更舒适。即使你没有突破这一点，我仍然担心。我的女儿非常外向，所以我个人并不担心她。

但如果我们把这个问题抽象化来看，从更广泛的角度来看，确实有很多值得思考的地方。以下是一个乐观的看法：我年轻时是一个相当笨拙的青少年，如果能有一些 AI 互动练习模式，来帮助我提升社交技能，可能会有所帮助。但与此同时，这并没有完全解决与真人互动相关的后果。这就像阅读关于「与高中女友第一次激烈争吵是什么感觉」的文章，与实际经历争吵之间的区别。当你身处争吵之中时，你会意识到这与阅读完全不同。这让我想起了经典的「中文屋」实验。或者另一个思想实验：有人一直待在黑白房间里，只阅读关于红色的描述，然后有一天他走出房间，看到了红色。他是否会获得一些与之前完全不同的体验？绝对会。那么，与模型交谈（即使是情感角色扮演）和与真人进行同样的互动，这两者之间是否存在差异？绝对存在。因此，AI 可能是未来人际互动的一个有益补充，但绝对不足以取代真实的人际互动。

主持人：最后一个问题，Dario Amodei 曾说过，我们这一代人可能会活到 150 岁。我可能有点曲解和概括了他的原话。但他的意思是，我们这一代人可能会活得非常长。我对此非常乐观，我的母亲患有多发性硬化症，我希望AI能帮助找到治疗 MS 等疾病的方法。你是否同意他的乐观预测？你如何看待 AI 在延长寿命和人类寿命方面的作用？

Mike Krieger：我认为潜力是巨大的。从今天 AI 已经开始发挥作用的领域来看，包括加速药物发现和临床试验的闭环过程。例如，Noon Neri 公司过去完成临床试验报告需要 15 周，现在他们使用 Claude，20 分钟就能完成。这是一个巨大的进步。当然，这背后有数年的研究积累，我并不是说我们把数年时间缩短到了几周或几分钟，但我们确实可以加快流程中的某些环节。这是当前模型的能力。

然后，你看到了 Arc 研究所，这是一个由 Patrick Collison 等人创立和资助的科学研究机构，他们正在研究细胞的基础模型。有了细胞的真实模型，你就可以进行实验，这将极大地加速药物发现和实验进程，因为你缩短了实验的循环周期。所以我对此非常乐观。我认为 AI 在很多领域的潜力尚未得到充分利用。我记得，我这一代最聪明的一些人，曾经致力于投放更有针对性的广告，这在某个时期可能是事实。但今天，他们中的很多人都在致力于如何构建在各个领域都极其有用、有价值和智能的模型。

（文：Founder Park）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

01

初创公司要为

未来的模型构建产品

02

未来的模型会越来越不同，

而不是越来越相似

03

模型质量与产品体验强相关，

未来用户不需要自己选模型

04

DeepSeek 的启示：

学会营销自己、快速发布产品

05

Claude 想从模型提供商

转变为应用提供商

06

模型迭代很频繁，

但开发者不应该为之焦虑

07

第一方产品可以更好帮助迭代模型

08

后悔没有更早做第一方产品

09

未来的开发者要学会

正确地委托任务

10

蒸馏不是关键，

数据才是关键

11

AI 是人际关系的补充，

但不会取代真实互动

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复