万字解读OpenAI产品哲学：先发布再迭代、不要低估模型微调和评估

今天凌晨，OpenAI 发布了新模型 GPT-4.1，相对比 4o，GPT-4.1 在编程和指令遵循方面的能力显著提升，同时还宣布 GPT-4.5 将会在几个月后下线。

不少人吐槽 OpenAI 让人迷惑的产品发布逻辑——GPT-4.1 晚于 4.5 发布，以及混乱的模型命名，这些问题，都能在 OpenAI CPO Kevin Weil 最近的一期播客访谈中得到解答。

在访谈中，Kevin Weil 分享了 OpenAI 在产品方面的路线规划，以及所拥护的产品发布哲学「迭代部署」，对于近期火热的 4o 图片生成功能，也做了内部的复盘。

Kevin Weil 表示，「我们尽量保持轻量级，因为它不可能完全正确。我们会在半路放弃一些不正确的做法或研究计划，因为我们会不断学习新的东西。我们有一个哲学叫做迭代部署，与其等你完全了解模型的所有能力后再发布，不如先发布，即使不完美，然后公开迭代。」

背景：Kevin Weil 是 OpenAI 的首席产品官，负责管理 ChatGPT、企业产品和 OpenAI API 的开发。在加入 OpenAI 之前，Kevin 曾担任 Twitter、Instagram 和 Planet 的产品负责人，并在 Facebook 主导了 Libra（后更名为 Novi）加密货币项目的开发。

文章基于播客原内容进行编译，在不改变原意的前提下略有调整。

TLDR:

OpenAI 有一个哲学叫做「迭代部署」，其理念是我们一起学习这些模型，与其等到完全了解模型所有能力后再发布，不如先发布，即使不完美，然后公开迭代。还有一点是产品哲学是「模型最大化」，模型并不完美，会犯错。但我们不会在不必要的「脚手架」上花费太多时间，两个月后就会有更好的模型出现，打破当前的限制。
OpenAI 永远不应该只是一家纯粹的产品公司，必须既是一流的研究公司，又是一流的产品公司，两者需要紧密合作。以 Deep Research 为例，Kevin Weil 解释了产品与研究同事之间的大量来回配合。Kevin Weil 认为，如果将两者分开，研究人员去做他们擅长的事情、训练模型，到某个阶段之后，产品和工程团队才接手做事，那么我们就只是自己模型的「 API 消费者」。
未来会有非常聪明、广泛适用的模型，针对特定公司或用例的数据进行微调，使它们在特定的公司或用例上表现优异，而我们需要使用定制的评估来衡量它们的表现。但目前在行业中，并没有更多地使用微调模型，对于特定的用例，微调能够让模型的表现更好，这是未来的趋势。
撰写有效的评估报告正成为产品经理和 AI 产品开发团队的一项核心技能。这些结构化的测试衡量模型在特定任务上的表现，帮助团队了解模型的优势（准确率 99.95%）和劣势（准确率 60%），这些知识从根本上塑造了产品设计决策。评估报告的质量实际上限制了 AI 产品的潜力，因为模型只能针对可有效测量的内容进行优化。
尽管许多人认为聊天是一种将被取代的原始界面，但 Kevin Weil 认为聊天可能是人工智能的理想交互模式。聊天的非结构化、灵活性能够最大限度地提升通信带宽，而这是结构化界面无法做到的。这反映了人类自然沟通的方式，并且能够适应任何智能水平，从基础智能系统到超级智能系统。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

OpenAI 的产品发布哲学：先发布再迭代

Lenny：你之前说过，技术不断变化和加速，到发布时你还不确定模型会有多强大。我很好奇，是什么让你们能够如此快速且一致地推出这么多优秀的产品？听起来一个答案是自下而上的赋权团队，而不是自上而下的季度路线图规划。还有什么让你们能够如此频繁、如此快速地推出好的模型和产品？

Kevin Weil：我们尽量保持一个大致的方向，指向我们想要前进的道路，确保基本的方向一致。

在主题上，我们会制定季度路线图，并制定全年的策略。但是我不相信我们写下的东西在三个月后，更别说六个月或九个月后，真的能够完全实现。但这没关系，艾森豪威尔有一句名言我非常赞同：「计划无用，规划有益」，尤其是在这个领域。

季度路线图很有价值，它能让我们停下来思考：我们做了什么？什么成功了，什么没有成功？我们学到了什么？接下来要做什么？另外，每个人都有依赖关系，你需要基础设施团队做这些，与研究团队合作做另一些事情，所以必须停下来检查这些依赖关系，确保没有问题，然后开始执行。

我们尽量保持轻量级，因为它不可能完全正确。我们会在半路放弃一些不正确的做法或研究计划，因为我们会不断学习新的东西。所以规划的时刻是有帮助的，即使只对了一部分。这就要求我们自己要非常敏捷，没有必要制定三个月的路线图，更别说一年的，因为技术变化太快了。

我们真的很注重自下而上，但会受到整体方向一致性的约束。我们拥有一批非常优秀的人才。工程师、产品经理、设计师、研究员都对他们开发的产品充满热情，有强烈的观点，而且他们本身也是实际的开发者。他们非常清楚能力的边界，这一点非常重要。所以我认为应该更加自下而上。我们乐于犯错，并且经常犯错。

我很欣赏 Sam 的一点是，他会推动我们快速行动，但也理解快节奏会带来失误，比如「我们这个没做好」或者「这个发布了，不行，回滚吧」。看看我们的命名，简直太糟糕了。

Lenny：很多人向你提出了关于模型命名的问题。

Kevin Weil：我们的命名确实很糟糕，我们自己也知道，未来会找时间改进，但这并不是最重要的事情，所以我们没有在这上面投入太多的精力。

Lenny：但这似乎也说明了命名其实并没有那么重要。ChatGPT 是历史上最受欢迎、增长最快的产品，模型也是排名领先的模型，显然这并没有造成太大的影响。

Kevin Weil：没那么重要，我们可能会有类似「o3 mini high」这样的模型命名。

Lenny：哈哈，我喜欢这个。你提到了路线图和自下而上，我很好奇你们是如何保持对齐的？是否有固定的节奏或仪式让你或 Sam 审查所有即将推出的产品？比如每周或每月有例会，看看进展如何？

Kevin Weil：正如你所料，我们会进行产品审查，但是没有固定的仪式。因为我绝不希望团队因为等待我和 Sam 的审查而无法发布新产品或新功能。如果我出差或者 Sam 很忙，那不应该成为我们不发布的理由。

显然，对于最重要、优先级最高的项目，我们会密切关注，但坦白地说，我们尽量不去阻碍。我们希望赋权团队快速行动，我认为发布和迭代更为重要。

所以我们有一个哲学叫做「迭代部署」，其理念是我们一起学习这些模型。因此，与其等你完全了解所有能力后再发布，不如先发布，即使不完美，然后公开迭代。我们和整个社会一起进化，了解这些模型的不同之处、优点、缺点和古怪之处。我非常喜欢这个哲学。

还有一点是我们的产品哲学中有一种「模型最大化」的感觉。模型并不完美，会犯错。你可以花费大量时间围绕它们构建各种「脚手架」（Scaffolding），有时候我们也会这样做，因为有些错误是我们不想犯的。但是我们不会在不必要的「脚手架」上花费太多时间，因为我们的心态是，两个月后就会有更好的模型出现，打破当前的限制。我们也这样对开发者说：如果你开发的产品正好处于模型能力的边缘，继续努力，你做对了。再过几个月，模型会变得更强大，你那个之前勉强能用的产品就会大放异彩。这能够确保你在推动边界、创造新的事物。

Lenny：我在播客上采访了 Bolt 的创始人 Eric Simons，他分享了他们七年幕后开发产品的故事，一直失败，没有起色。突然 Claude Sonnet 3.5 出来了，一切都变得好用了。他们一直在打造产品，终于成功了。我在 YC 也经常听到这种事情：以前不可能的事情，每隔几个月随着模型的更新就变成了可能。

Kevin Weil：是的，绝对是这样。

好的 AI 公司不能只是模型的「 API 消费者」

Lenny：我猜很多创新来自于研究人员的灵感，有些想法来自于产品经理和工程师。这些团队是如何协作的？每个团队都有产品经理吗？很多是研究主导的吗？

Kevin Weil：我们正在这个方面进行大幅度的进化，我对此感到非常兴奋。回想几年前 ChatGPT 刚起步的时候，我不在 OpenAI，那时 OpenAI 更像是一家纯粹的研究公司。如果你还记得，ChatGPT 是一个低调的研究预览版，团队推出时并没有预料到它会成为如此成功的产品。它只是一个让我们能够玩玩模型、进行迭代的方式。

所以当时 OpenAI 主要是一家研究公司，一家顶尖的研究公司。随着 ChatGPT 的增长，我们开发了 B2B 产品、API 等等，现在我们比以前更像一家产品公司了。我认为 OpenAI 永远不应该只是一家纯粹的产品公司，我们必须既是一流的研究公司，又是一流的产品公司，两者需要紧密合作。这是过去六个月我们显著改进的地方。

如果将两者分开，研究人员去做他们擅长的事情、训练模型，到某个阶段之后，产品和工程团队才接手做事，那么我们就只是自己模型的「 API 消费者」。

但是最好的产品，就像我说的 Deep Research，需要大量的迭代反馈。要理解你想要解决的问题，构建评估（evals），用评估收集数据，微调模型，让它在你想要解决的用例上表现得更好。

这需要大量的来回配合。我认为最好的产品是产品设计和研究人员团结在一起，像一个单一的团队那样探索和打造新技术和新产品。我们现在就是这样运作的，几乎所有的产品都是如此。这是我们的新能力，因为我们作为一家产品公司还算新手，但是大家都对此感到非常兴奋，因为每次这样做，我们都能打造出很棒的产品。现在每个产品都是这样开始的。

Lenny：OpenAI 有多少产品经理？

Kevin Weil：其实不多，大概 25 个。我个人认为组织应该保持一个较小的产品经理团队。

我自己就是产品经理，但是太多的产品经理会带来问题，会让 PPT 和想法充斥世界，而不是实际的执行。所以我认为产品经理和比他们略多的工程师合作是好事，因为他们不会进行微观管理，会将影响力和决策的责任留给工程师。这意味着你必须拥有非常关注产品的工程师，我们很幸运拥有这样的人才。

我们有一个极其关注产品、积极主动的工程团队。产品经理努力理解问题，轻轻地引导团队，但是事情太多了，无法深入到每一个细节。这样你就能快速行动，这是我们的哲学。我们想要产品主导的工程师，贯穿始终。我们不想要太多的产品经理，但是我们的产品经理都很优秀。

Lenny：我猜在 OpenAI 做产品经理对很多人来说是梦想成真，但同时对很多人来说可能并不适合。这里有研究人员、产品导向的工程师。你在招聘产品经理时看重什么？对于那些想「也许我不应该去那里工作」的人，你有什么建议？

Kevin Weil：我提过几次，积极主动是我们非常看重的。不要等着别人允许你做事，看到问题就去解决，这是我们工作的核心。还要适应模糊性，这里有很多模糊性。有时我们公司的工作对初级产品经理来说会比较困难，因为这里没有人会告诉你「这是全景，这是你的领域，去做这个」。早期职业的产品经理想要这样，但是我们没有人有时间，问题定义不清，我们是边走边摸索。所以积极主动、适应模糊性、准备执行并快速行动，这是我们的制胜法宝。

同时，还要乐于通过影响力来领导。通常产品经理没有人直接向你汇报，团队也不归你管，再加上研究功能的复杂性，更难直接推动。与研究团队建立良好的关系非常重要，所以情商对我们来说也很关键。

Lenny：我知道在大多数公司，产品经理刚进来的时候，大家会想「我们为什么需要你」，产品经理需要赢得信任，证明自己的价值。在 OpenAI 可能是一个极端版本，他们可能会想「我们有研究人员、工程师，你来做什么？」

Kevin Weil：是的，做得好的时候大家会欣赏，但是你必须带领大家一起前进。我认为产品经理最重要的一点是果断。这里有一个微妙的界限，我不太喜欢「产品经理是产品的 CEO」这种说法。就像 Sam 如果在每次会议上都做出每一个决定，那么他很有可能会犯错，如果他从不做出决定，那也是错误的。

关键在于知道什么时候应该让团队进行创新，什么时候需要做出决定，当有人感到不舒服或者没有权限去做，或者当决定涉及到太多分散的利弊，需要有人拍板的时候。这是 CEO 的重要特质，Sam 在这方面做得很好，这也是产品经理在微观层面上的重要特质。因为模糊性很多，很多情况下答案并不明显。我期望产品经理在情况模糊、无人做出决定的时候，确保决定被做出，我们能够继续前进。

模型微调的价值被低估了

Lenny：未来的产品团队会是怎样的？你觉得产品团队的结构或构建方式最大的变化是什么？未来几年会怎样？

Kevin Weil：我认为你肯定会看到每个产品团队里都有研究人员。

我指的不仅仅是基础模型公司。坦白地说，我对整个行业有点惊讶，他们没有更多地使用微调模型。这些基础模型非常强大，我们的 API 能够做很多事情。但是对于特定的用例，微调总是能够让模型的表现更好。这可能只是时间问题，大家还没有完全习惯，但我确信这是未来的趋势。

模型会无处不在，就像晶体管一样，AI 会融入我们所做的一切。但是会有很多微调模型。因为你为什么不针对特定的用例定制模型呢？我觉得几乎每个团队都会有准研究人员、机器学习工程师，微调模型将成为构建大多数产品的核心流程。这是基础模型公司已经开始看到的趋势，并且会随着时间的推移扩展到更多的团队。

Lenny：我想到一个例子：Cursor 和 Windsurf 的创始人告诉我，他们使用 Anthropic 的 Claude Sonnet，但还有很多定制模型在帮助他们，让体验更好，不仅仅是生成代码，还有自动补全和预测下一步。你觉得团队会和研究人员一起构建什么样的微调模型？

Kevin Weil：微调模型的时候，你会给模型大量的例子，告诉它你希望它擅长什么。比如，「这是一个问题，这是一个好的答案；这是另一个问题，这是一个好的答案」，重复一千次或者一万次。突然之间，模型在特定的任务上就比最初的时候强大得多。我们内部都在使用这个方法，并且也应用了多个模型结合的方法。

不是说我有十个问题，就直接问 GPT-4o 这个基础模型。如果有十个问题，我们可能会使用二十个模型调用来解决，有些使用专门微调过的模型，有些使用不同规模的模型，因为不同的问题对延迟或成本的要求不同。针对不同的问题还会使用定制的提示，你可以训练模型在某些问题上表现得非常出色。

你需要将问题拆分成更具体的任务，而不是一堆高层次的任务。然后使用特定的模型针对每个小任务做到最好，最后将结果组合起来解决整个问题，很多优秀的公司已经在这样做了。我还看到很多公司只是给模型单一的、泛泛的问题，而不是拆分问题。我觉得未来会更多地进行问题拆分，并使用经过微调的特定模型。

Lenny：你的这个案例很有趣，你们是使用不同级别的 GPT 模型吗？

Kevin Weil：我们内部技术栈的某些部分会这样做。举个例子，客户支持：我们有超过四亿的周活跃用户，收到了大量的工单。但是我们可能只有大约三四十个客服人员，比任何类似的公司都要少得多，因为我们自动化了很多流程。

大部分问题都是通过内部资源知识库、回答问题的指导方针、个性化设置等来教模型的，然后让它自动回答很多问题。如果它对某个问题没有十足的把握，它可以建议一个答案，然后请人工进行审查，而这个人提供的答案就成为了模型的微调数据，告诉它在特定情况下正确的答案是什么。我们在不同的地方使用不同的模型，有些地方需要更多的推理，对延迟不太敏感，我们就使用推理模型（o 系列），有些地方需要快速检查，我们就使用 4o mini。

总的来说，特定的模型用于特定的目的，然后组合起来解决问题，这和人类解决问题的方式非常相似。一个公司可以说是一个模型组合，每个人根据大学所学的知识和职业经验被微调，拥有不同的技能，组合起来的输出要比个体强大得多。

Lenny：你提到了一个很多 AI 创业者关心的话题：OpenAI 或其他基础模型未来不会替代我的领域是什么？很多人不清楚是否应该在某个领域创业。你有什么建议或指导，关于 OpenAI 或基础模型可能不会涉足或创业者有机会创业的领域？

Kevin Weil：我记得投资人 Fred Wilson 在 Twitter 上说过一句话，一直让我印象深刻：不管你的公司有多大，多优秀，墙外总比墙内有更多聪明人。所以我们非常注重打造优秀的 API，现在有三百万开发者在使用我们的 API。

AI 能够从根本上改善我们的生活，但是不管我们多么有雄心，规模有多大，世界上有太多的用例和领域是我们没有能力亲自去做的。我们没有足够的人力，也没有足够的垂直领域的知识和数据去进入大多数领域。

就像我说的，数据是行业特定的、用例特定的，存在于某些公司的内部。每个行业、每个垂直领域都有巨大的机会，去打造基于 AI 的产品，改进现有的技术。我们不可能自己做到这些。我们不想，也不能。我们非常兴奋能够为三百多万（未来会更多）开发者赋能。

Lenny：你经常使用 ChatGPT，有什么能帮助你得到想要结果的技巧吗？

Kevin Weil：首先我想打破你觉得人们需要擅长提示工程的想法，如果我们这些模型提供商的工作做得足够好，人们就不需要掌握那么高的提示技巧，就像以前需要深入了解 MySQL 存储引擎用的是 InnoDB 4.1 之类的细节一样。一些专家级的用例可能需要复杂的提示，但是如果 AI 要广泛普及，就不能让用户总是关注这些提示词的细微差别。

我觉得我们正在进步，让模型比以前更少地需要提示工程了。不过我还是正面回答你的问题，结合我之前说的微调的重要性，你可以在提示中加入例子，做一种「穷人版的微调」。比如「这是一个问题，这是一个好的答案，现在请帮我解决这个问题」。模型会学习，虽然不如完整的微调效果好，但是比不给例子要强很多。只是人们并不经常这样做。

内部都不感兴趣的功能，

可能就不用做了

Lenny：你们为 GPT-4o 推出了图片生成功能，我的整个社交媒体时间线上，都被吉卜力风格的度假照、家庭照刷屏了。

Kevin Weil：是的，我的也是。我妻子也给我发了一张她的作品，所以我跟你一样感到兴奋。

Lenny：感觉这是 ChatGPT 推出以来 AI 领域最火爆的事情，你们预期到会这么成功吗？

Kevin Weil：在我职业生涯中，有几次这样的经历，内部开发一个项目或产品时，内部使用量突然呈现爆炸式增长。比如我之前在 Instagram 开发 Stories 的时候就是这样。我们能感觉到它会成功，因为我们内部都在使用。在正式推出前，我们周末出去玩，大家都在用这个功能。

图像生成绝对是这样一个例子，我们内部玩了好几个月。当它第一次在公司内部上线时，有一个小型的作品展示区，你可以在那里生成自己的图像，也可以看到其他人生成的，内部也有持续不断的讨论。所以，我们有一种预感，这会非常有趣，大家会喜欢。

Lenny：这是一个很好的衡量标准，判断一个东西推出后是否会成功——那就是在推出前，内部的员工都为之疯狂。

Kevin Weil：是的，特别是偏社交传播类产品，因为公司内部的社交网络非常紧密。如果你在做社交类的产品，如果内部都没有火起来，你可能真的要好好审视一下自己正在做的事情了。

Lenny：对了，那个吉卜力风格是怎么回事？是你们有意这样引导的吗？是故意给出的示例吗？

Kevin Weil：我觉得就是大家很喜欢这种风格，而且模型非常擅长模仿风格或理解用户的需求，它在遵循指令方面表现得非常出色。你可以给它非常复杂的要求，比如提供两张图片，一张是你的客厅，另一张是一堆照片、纪念品或者任何你想要的东西，然后你可以说「告诉我如何布置这些东西」。模型真的能够理解你的需求，并生成符合要求的图片，这太强大了。所以我很期待人们会发现各种不同的玩法。

模型评估很重要，

应该是 AI 产品经理的核心技能

Lenny：你在很多公司工作过，我很好奇，OpenAI 的日常工作和那些地方最大的不同是什么？

Kevin Weil：我想可能是节奏。或许有两点。

第一是节奏；

第二点是，在我之前工作过的所有地方，你大致清楚自己所依赖的技术基础是什么，所以你会花时间思考：你在解决什么问题？为谁打造产品？如何改善他们的生活？这个问题是否足够重要，能够改变用户的习惯？人们是否关心这个问题能否得到解决？这些都是优秀产品需要考虑的点，但是你用于构建产品的基础技术是相对固定的，比如数据库，你今年用的数据库可能比两年前的好 5%，但是 AI 完全不是这样。每隔两个月，计算机就能做到以前无法做到的事情，你必须彻底重新思考自己正在做什么。

还有一点，我们稍后可能会聊到「评估」（evals），在我们过去的世界里，我们习惯于在操作时给计算机非常明确的输入。比如在 Instagram，有各种按钮来执行特定的操作，你知道它们的功能。当你给计算机明确的输入时，你会得到明确的输出。你有信心，同样的操作执行三次，会得到三次相同的输出。

但是大语言模型（LLMs）完全不同。它们擅长处理模糊、细微的输入，人类语言和沟通的所有细微差别它们都能理解，而且它们不会每次都给出完全一样的答案。你可能会得到内容上相同的答案，但肯定不会每次都使用完全相同的词语。所以输入更加模糊，输出也更加模糊。

当你开发产品时，如果某个用例模型只能达到 60%的正确率，你会打造完全不同的产品；如果模型能达到 95%的正确率，又是另一种产品；如果能达到 99.5%的正确率，又会是不同的产品。所以你必须深入研究用例和评估，才能明白应该打造什么样的产品，这是根本性的不同。如果数据库测试一次能用，那么几乎每次都能用，但是在这个领域里并非如此。

Lenny：我们顺着「评估」这个话题继续聊下去吧。在之前的一次小组讨论中，你说过一句话：编写评估将成为产品经理的核心技能。我觉得这可能不仅仅适用于产品经理。

很多人知道什么是评估，但也有很多人完全不明白我在说什么。你能简单解释一下什么是「评估」（eval）吗？然后为什么你觉得这对未来开发产品的人如此重要？

Kevin Weil：当然，我想最简单的理解方式是把它想象成模型的测验，用来测试它对某类主题的掌握程度，或者回答某类问题的能力有多强。

就像你上微积分课，然后有考试，看你是否学到了该学的知识。评估也是一样，测试模型在创意写作方面有多好？在研究生级别的科学方面有多强？在竞赛编程方面表现如何？你有一套评估，作为基准，来衡量模型有多聪明或者多有能力。

Lenny：简单来说，就像单元测试一样？

Kevin Weil：对，单元测试，或者说是模型的测试。

Lenny：那为什么这对那些不太懂评估的人如此重要？为什么这对打造 AI 产品如此关键？

Kevin Weil：回到我刚才说的，你必须知道模型在某些方面能够达到 99.95%的正确率，有些事情是 95%的正确率，有些是 60%的正确率。如果模型在某件事情上只有 60%的正确率，你必须以完全不同的方式来打造产品。而且，这些都不是一成不变的。

拿「Deep Research」来说，这是我最喜欢的产品之一。这个产品的理念是，你可以给 ChatGPT 一个关于任意主题的复杂查询，它不是简单地返回搜索结果，而是如果你自己来回答这个问题，你可能需要上网查阅资料，阅读论文，然后回来整理思路，发现逻辑漏洞，再去进行更多的研究，可能需要花费一周的时间，最终你才能写出一份 20 页的答案。现在你可以让 ChatGPT 替你忙碌 25 到 30 分钟，完成你一周的工作量。

我们在开发这个产品的同时，也在设计评估，思考产品应该如何运作。我们尝试寻找「典型用例」：设定一个你想要提出的问题，完成一个完美的答案，然后将这些转化为评估，再在这些评估的基础上不断优化。

所以模型不是一成不变的，你可以训练模型，让它持续学习。当我们为「深度研究」微调模型时，我们能够测试它在我们认为重要的评估指标上是否有进步。当你看到评估表现提升时，你就会说：「好，我们可以打造这个水平的产品了。」

Lenny：你还提到过，AI 的能力进化几乎被我们编写评估的能力所限制住了。你可以详细说说吗？

Kevin Weil：这些模型的智能是多维度的。举个软件工程领域的例子，你可以说一个模型在竞赛编程方面很强，但不一定在前端开发、后端开发，或者将 COBOL 代码转换为 Python 方面也很强。所以，这些模型可以被看作是非常聪明、知识渊博的智能体，但是世界上大部分的数据、知识、流程并非公开的。

就像你加入一家公司，前两周需要入职培训，学习公司特定的流程，接触公司特定的数据。模型足够聪明，你可以教它们任何东西，但是它们必须要有原始数据来学习。

所以，未来我们会有非常聪明、广泛适用的模型，然后针对特定公司或用例的数据进行微调，使它们在特定的公司或用例上表现优异，而你需要使用定制的评估来衡量它们的表现。我的意思是这些模型很聪明，但是如果数据不在它们的训练集中，你就必须教它们。有大量的用例不在训练集中，因为它们只与某个特定的行业或公司相关。

模型最大化：创业要瞄准模型马上就能实现的能力

Lenny：我临时想问一个问题，我很好奇，你对 Claude Sonnet 3.5 为什么这么擅长编码有什么想法吗？你们的模型会变得同样好或更好吗？

Kevin Weil：向 Anthropic 致敬，毫无疑问，他们打造了很棒的编码模型。我认为智能是多维度的，以前 OpenAI 在模型上拥有巨大的领先优势，可能领先十二个月，但现在不是这样了。

我认为我们仍然保持领先，但不是巨大的领先，这意味着在不同的领域会有不同的表现，比如 Google 的模型很强大，Anthropic 的模型也很强大，我们也有自己的优势，竞争对手会想「我们必须改进这个」。一旦有人证明某件事是可行的，改进起来就比开辟新的道路要容易得多。比如，以前没有人能跑进四分钟一英里，然后有人做到了，下一年又有十二个人做到了。这种现象在各个领域都有。竞争非常激烈，消费者、开发者、企业都将因此受益匪浅。

这也是行业发展如此迅速的原因之一。向其他大型模型提供商致敬，模型正变得越来越好。我们会尽可能快地推进，我们有一些很棒的模型即将发布。

Lenny：AI 技术改变了写作、设计、编码等创意工作，你认为下一个大的飞跃是什么？尤其是在 AI 辅助创意方面应该注意什么？

Kevin Weil：对于「 AI+创意内容」领域，我的态度非常乐观。我们此前聊到了图像生成，用户在 Twitter、Instagram 等社交平台上展示他们创作的内容。我是世界上最差的艺术家，给我纸和笔，我画得不如八岁的孩子。但是有了 AI 图像生成工具，我能够想出一些创意的点子，输入模型，它能够创作出我自己画不出来的画面，这非常酷。

我近期在和一个知名的导演沟通时聊到了 AI 视频生成工具 Sora。他分享了一个场景，假如要拍摄像《星球大战》这样的科幻电影，有一个场景是飞机冲向死星，从俯瞰整个星球切换到地面看到城市，应该如何处理这个过渡？他说两年前，他会花费十万美元聘请一家 3D 特效公司，该公司会花费一个月的时间给出两个版本，他进行评估，然后选择一个，因为他不可能再花费五万美元再等待一个月进行优化，只能使用。但是如果使用工具 Sora，他可以得到 50 个不同的创意版本，通过输入提示，和 Sora 模型一起进行头脑风暴，同时还可以迭代、精炼、融合不同的想法，最后再找 3D 特效公司制作最终版本。

我对 AI 创意领域的总体看法是，没有人会在 Sora 里输入「给我拍一部好电影」这样的提示，但 Sora 能够帮助人类探索更多创意的可能性，并获得更好的结果。

Lenny：Sam Altman 最近发的一条推文，提到了你们正在进行的创意写作项目，Altman 说他很不擅长创意写作，但是分享了一个模型生成的例子，效果真的非常好。

Kevin Weil：是的，我们内部有一些新的研究技术非常令人兴奋。Altman 有时喜欢展示即将推出的东西，这非常符合我们的迭代部署哲学。我们有突破性的进展不会藏着掖着，我们会谈论我们正在做的事情，在可以分享的时候就分享，尽早发布，然后公开迭代。我非常喜欢这个哲学。

Lenny：刚才你提到 AI 编码可能很快会有突破，此外还有什么人们可以期待的未来有趣且激动人心的产品或应用吗？

Kevin Weil：天哪，这还不够吗？

Lenny：人们总是希望听到更多的新消息。

Kevin Weil：对我来说最令人惊叹的是模型的迭代速度，我们每六到九个月迭代一个新 GPT 模型，比如 GPT-3、GPT-3.5、4。现在 o 系列推理模型更快，大概每三到四个月就有一个新的 o 系列模型，每次能力都有提升。模型能力提升的速度令人难以置信，成本也在规模化的情况下降低。

最初的 GPT-3.5 API 成本是今天 GPT-4o mini 的 100 倍。几年时间下降了两个数量级，智能却强大得多。模型更聪明、更快、更便宜、更安全，每次迭代「幻觉」都更少。

摩尔定律说晶体管数量每十八个月翻一番。如果模型的性价比每年提升十倍，那是更陡峭的指数增长。这告诉我们，未来会和今天非常不同。我经常提醒自己，你今天用的 AI 模型是你余生用过的最差的。人们应该真正理解这一点，这太疯狂了。

Lenny：我正想说同样的话，你提到 Sora，很多人可能会想「它还没准备好，不够好，没有我在电影院里看到的电影那么棒」。但是你刚才说的关键是，这是它最差的时候，它只会越来越好。

Kevin Weil：是的，「模型最大化」就是持续构建瞄准那些马上就能实现的能力，模型会一代代变得令人惊艳。

Chatbot 仍会是与 AI 交互最合适的方式

Lenny：虽然其他模型在某些方面可能更好，但 ChatGPT 似乎总是在认知度和使用量上领先。不管排名如何，人们一想到 AI 就会想到 ChatGPT。你觉得你们做对了什么，至少目前在消费者心智和全球认知度上取得了领先？

Kevin Weil：我觉得抢占先机非常重要，这也是我们注重快速行动的原因。我们喜欢第一个推出新的功能，比如 Deep Research。

我们的模型也非常全能，能够处理实时视频输入，能够进行语音对语音、语音转文字、文字转语音的转换，能够进行深度研究，能够在画布上操作，还能够编写代码。所以 ChatGPT 就像一个一站式商店，你想要做的事情几乎都可以在这里实现。未来我们会有更多的 Agent 工具，比如 Operator，它会为你浏览网页、处理事务。你会越来越倾向于来到 ChatGPT 这个平台，给它指令，让它为你完成现实世界中的事情，这具有根本性的价值。我们非常关注这一点，并努力快速行动，以确保我们始终是人们最有用的选择。

Lenny：你在开发 AI 产品或在 OpenAI 工作后，学到的最违反直觉的事情是什么？有什么让你觉得「我没料到会这样」的？

Kevin Weil：我觉得有趣的一点是，当你想要弄清楚某个 AI 产品应该如何运作，甚至为什么某个 AI 现象是真实存在的时候，你可以用推理人类的方式去思考，而且往往是行得通的。

举几个例子，我们首次推出推理模型时，它不像以前那样每次提问就立刻给出「系统 1」的答案，比如「神圣罗马帝国第三代皇帝是谁」，就直接回答。

你可以问它一些难题，它会像人一样进行推理。如果我让你做填字游戏，你不会立刻填完，而是会思考「这条横线可能是这两个词之一，那这里有个 A，所以这条线肯定是这个词」，一步步地回溯，就像解决复杂的逻辑或科学问题一样。这种推理能力是一个巨大的突破，但这也是模型第一次需要「坐下来思考」。

这对消费产品来说是一个又新又奇怪的模式，通常你不会问一个问题然后等待 25 秒。所以我们一直在思考 UI 应该如何设计？

因为这不像深度研究，模型会思考 25 分钟。你不会盯着它看 25 分钟，你会去做别的事情，打开一个新的网页标签或者吃午饭，回来就好了。但是如果是 20 秒或者 10 秒，这个时长你需要等待，又不够长到去做别的事情。

所以你必须思考，如果我问你一个问题，你需要思考 20 秒，你会怎么做？我不会沉默 20 秒然后再开口，我们不应该只是在那里放一个恼人的滑动条。但是我也不会把每一步的想法都说出来，所以我们不应该直接展示模型的全部思考链。但是我可能会说「这是一个好问题，我可以这样考虑」，给出一些小的更新。我们最后发布的功能也是这样设计的。

还有类似的情况，比如让一群模型共同攻克同一个问题，然后再让一个模型整合它们的输出，给你最终的答案，你会得到更好的思考结果。这有点像头脑风暴？我和别人一起头脑风暴的时候，想法会更好，因为他们和我思考的方式不同。所以在很多情况下，你可以用人类或者群体的方式进行推理，效果会很不错。

Lenny：我看这些模型运作的时候，从来没有想过你们在设计这种体验。对我来说，模型就是那样工作的，坐在那里告诉我它在想什么。我喜欢你说的「让它像人一样运作」。人是怎么运作的？他们会大声说出来，思考应该探索什么。我也喜欢深度研究的极端例子，它把所有的过程都展示出来，人们似乎也很喜欢。你觉得这令人惊讶吗？

Kevin Weil：是的，我们从中学到了很多东西。最初发布的时候，我们只给了模型思考的副标题，没有展示太多过程。然后 DeepSeek 出来了，它把思维链完整地展示了出来，我们觉得「不是每个人都想要这样」。

看到模型的真实想法有一种新鲜感，我们内部也觉得看模型的思考链很有意思。但是对于四亿用户来说，你不想看模型在那里啰嗦一大堆。所以我们用有趣的方式进行总结，不仅仅是给一个副标题，而是关于它是如何思考的一两句话，你能从中学习到一些东西。我们找到了一个中间地带，觉得这对大多数人来说是一个有意义的体验。但是给每个人三段关于模型思考过程的文字可能并不是正确的答案。

Lenny：设计更优质用户体验的大模型产品的关键，就是想想「人类」会怎么做吗？

Kevin Weil：不一定总是想人会怎么做，但有时为了直觉地找到解决问题的方法，是想人类在类似情况下会做什么，至少能提供一个不同的视角来看待问题。因为我们经常和人类对话，遇到各种各样的情况，有很多可以学习借鉴的地方。

Lenny：这让我想起你在峰会上说的另一件事：人们经常嘲笑 chatbot 不是未来与 AI 交互的界面。但是你提出了一个很有趣的反驳观点：人类喜欢通过说话进行交互，和 AI 聊天也是这样，能够适应各种智能水平。关于聊天为什么是大模型一个有趣的界面，你还有什么想法吗？

Kevin Weil：也许这是我坚信，但大多数人不相信的东西。我觉得 chatbot 是一个非常棒的界面，因为它太灵活了。人们经常说「聊天？我们会找到更好的界面」。我觉得这是非常通用的，因为这就是我们说话的方式。我可以像现在这样和你进行口头交流，可以看到彼此的互动，也可以在 WhatsApp 上发送文本消息，但这些都是非结构化的沟通方式，是我们人类的运作方式。

如果我和你说话必须使用一个更加死板的界面，我们可以聊的东西会少很多，反而会妨碍我们最大化沟通的带宽。所以这其中有一种魔力。过去这种方式行不通，是因为没有模型能够理解人类语言的复杂性和细微差别，而这正是大模型的魔力所在。对我来说，这是一个完美契合这些模型力量的界面，但这并不意味着未来永远都只是打字。如果你想要一个开放且灵活的沟通媒介，用户进行表达，由模型作出回应，同时仍希望采用最基础、无限制的交互方式。

Lenny：这真有趣，你的观点彻底改变了我对此事的看法。chatbot 特别适合与超级智能进行交流。

Kevin Weil：顺便说一句，也不仅仅是聊天。如果是高频、特定用例，不需要完全的通用性，很多情况下，更有限、更快、针对特定任务的界面会更好，这些也很棒。但是你仍然需要聊天作为基线，来处理任何超出你特定垂直领域的东西。它就像一个万能公式，涵盖了你想对模型表达的一切。

原播客：

《OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more》

https://www.lennysnewsletter.com/p/kevin-weil-open-ai

（文：Founder Park）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31