万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估

今天凌晨,OpenAI 发布了新模型 GPT-4.1,相对比 4o,GPT-4.1 在编程和指令遵循方面的能力显著提升,同时还宣布 GPT-4.5 将会在几个月后下线。

不少人吐槽 OpenAI 让人迷惑的产品发布逻辑——GPT-4.1 晚于 4.5 发布,以及混乱的模型命名,这些问题,都能在 OpenAI CPO Kevin Weil 最近的一期播客访谈中得到解答。

在访谈中,Kevin Weil 分享了 OpenAI 在产品方面的路线规划,以及所拥护的产品发布哲学「迭代部署」,对于近期火热的 4o 图片生成功能,也做了内部的复盘。

Kevin Weil 表示,「我们尽量保持轻量级,因为它不可能完全正确。我们会在半路放弃一些不正确的做法或研究计划,因为我们会不断学习新的东西。我们有一个哲学叫做迭代部署,与其等你完全了解模型的所有能力后再发布,不如先发布,即使不完美,然后公开迭代。

背景:Kevin Weil 是 OpenAI 的首席产品官,负责管理 ChatGPT、企业产品和 OpenAI API 的开发。在加入 OpenAI 之前,Kevin 曾担任 Twitter、Instagram 和 Planet 的产品负责人,并在 Facebook 主导了 Libra(后更名为 Novi)加密货币项目的开发。

文章基于播客原内容进行编译,在不改变原意的前提下略有调整。

TLDR: 

  • OpenAI 有一个哲学叫做「迭代部署」,其理念是我们一起学习这些模型,与其等到完全了解模型所有能力后再发布,不如先发布,即使不完美,然后公开迭代。还有一点是产品哲学是「模型最大化」,模型并不完美,会犯错。但我们不会在不必要的「脚手架」上花费太多时间,两个月后就会有更好的模型出现,打破当前的限制。

  • OpenAI 永远不应该只是一家纯粹的产品公司,必须既是一流的研究公司,又是一流的产品公司,两者需要紧密合作。以 Deep Research 为例,Kevin Weil 解释了产品与研究同事之间的大量来回配合。Kevin Weil 认为,如果将两者分开,研究人员去做他们擅长的事情、训练模型,到某个阶段之后,产品和工程团队才接手做事,那么我们就只是自己模型的「 API 消费者」。

  • 未来会有非常聪明、广泛适用的模型,针对特定公司或用例的数据进行微调,使它们在特定的公司或用例上表现优异,而我们需要使用定制的评估来衡量它们的表现。但目前在行业中,并没有更多地使用微调模型,对于特定的用例,微调能够让模型的表现更好,这是未来的趋势。

  • 撰写有效的评估报告正成为产品经理和 AI 产品开发团队的一项核心技能。这些结构化的测试衡量模型在特定任务上的表现,帮助团队了解模型的优势(准确率 99.95%)和劣势(准确率 60%),这些知识从根本上塑造了产品设计决策。评估报告的质量实际上限制了 AI 产品的潜力,因为模型只能针对可有效测量的内容进行优化。

  • 尽管许多人认为聊天是一种将被取代的原始界面,但 Kevin Weil 认为聊天可能是人工智能的理想交互模式。聊天的非结构化、灵活性能够最大限度地提升通信带宽,而这是结构化界面无法做到的。这反映了人类自然沟通的方式,并且能够适应任何智能水平,从基础智能系统到超级智能系统。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。


01

OpenAI 的产品发布哲学:先发布再迭代

Lenny:你之前说过,技术不断变化和加速,到发布时你还不确定模型会有多强大。我很好奇,是什么让你们能够如此快速且一致地推出这么多优秀的产品?听起来一个答案是自下而上的赋权团队,而不是自上而下的季度路线图规划。还有什么让你们能够如此频繁、如此快速地推出好的模型和产品?

Kevin Weil:我们尽量保持一个大致的方向,指向我们想要前进的道路,确保基本的方向一致。

在主题上,我们会制定季度路线图,并制定全年的策略。但是我不相信我们写下的东西在三个月后,更别说六个月或九个月后,真的能够完全实现。但这没关系,艾森豪威尔有一句名言我非常赞同:「计划无用,规划有益」,尤其是在这个领域。

季度路线图很有价值,它能让我们停下来思考:我们做了什么?什么成功了,什么没有成功?我们学到了什么?接下来要做什么?另外,每个人都有依赖关系,你需要基础设施团队做这些,与研究团队合作做另一些事情,所以必须停下来检查这些依赖关系,确保没有问题,然后开始执行。

我们尽量保持轻量级,因为它不可能完全正确。我们会在半路放弃一些不正确的做法或研究计划,因为我们会不断学习新的东西。所以规划的时刻是有帮助的,即使只对了一部分。这就要求我们自己要非常敏捷,没有必要制定三个月的路线图,更别说一年的,因为技术变化太快了。

我们真的很注重自下而上,但会受到整体方向一致性的约束。我们拥有一批非常优秀的人才。工程师、产品经理、设计师、研究员都对他们开发的产品充满热情,有强烈的观点,而且他们本身也是实际的开发者。他们非常清楚能力的边界,这一点非常重要。所以我认为应该更加自下而上。我们乐于犯错,并且经常犯错。

我很欣赏 Sam 的一点是,他会推动我们快速行动,但也理解快节奏会带来失误,比如「我们这个没做好」或者「这个发布了,不行,回滚吧」。看看我们的命名,简直太糟糕了。

Lenny:很多人向你提出了关于模型命名的问题。

Kevin Weil:我们的命名确实很糟糕,我们自己也知道,未来会找时间改进,但这并不是最重要的事情,所以我们没有在这上面投入太多的精力。

Lenny:但这似乎也说明了命名其实并没有那么重要。ChatGPT 是历史上最受欢迎、增长最快的产品,模型也是排名领先的模型,显然这并没有造成太大的影响。

Kevin Weil:没那么重要,我们可能会有类似「o3 mini high」这样的模型命名。

Lenny:哈哈,我喜欢这个。你提到了路线图和自下而上,我很好奇你们是如何保持对齐的?是否有固定的节奏或仪式让你或 Sam 审查所有即将推出的产品?比如每周或每月有例会,看看进展如何?

Kevin Weil:正如你所料,我们会进行产品审查,但是没有固定的仪式。因为我绝不希望团队因为等待我和 Sam 的审查而无法发布新产品或新功能。如果我出差或者 Sam 很忙,那不应该成为我们不发布的理由。

显然,对于最重要、优先级最高的项目,我们会密切关注,但坦白地说,我们尽量不去阻碍。我们希望赋权团队快速行动,我认为发布和迭代更为重要。

所以我们有一个哲学叫做「迭代部署」,其理念是我们一起学习这些模型。因此,与其等你完全了解所有能力后再发布,不如先发布,即使不完美,然后公开迭代。我们和整个社会一起进化,了解这些模型的不同之处、优点、缺点和古怪之处。我非常喜欢这个哲学。

还有一点是我们的产品哲学中有一种「模型最大化」的感觉。模型并不完美,会犯错。你可以花费大量时间围绕它们构建各种「脚手架」(Scaffolding),有时候我们也会这样做,因为有些错误是我们不想犯的。但是我们不会在不必要的「脚手架」上花费太多时间,因为我们的心态是,两个月后就会有更好的模型出现,打破当前的限制。我们也这样对开发者说:如果你开发的产品正好处于模型能力的边缘,继续努力,你做对了。再过几个月,模型会变得更强大,你那个之前勉强能用的产品就会大放异彩。这能够确保你在推动边界、创造新的事物。

Lenny:我在播客上采访了 Bolt 的创始人 Eric Simons,他分享了他们七年幕后开发产品的故事,一直失败,没有起色。突然 Claude Sonnet 3.5 出来了,一切都变得好用了。他们一直在打造产品,终于成功了。我在 YC 也经常听到这种事情:以前不可能的事情,每隔几个月随着模型的更新就变成了可能。

Kevin Weil:是的,绝对是这样。


02

好的 AI 公司不能只是模型的「 API 消费者」

Lenny:我猜很多创新来自于研究人员的灵感,有些想法来自于产品经理和工程师。这些团队是如何协作的?每个团队都有产品经理吗?很多是研究主导的吗?

Kevin Weil:我们正在这个方面进行大幅度的进化,我对此感到非常兴奋。回想几年前 ChatGPT 刚起步的时候,我不在 OpenAI,那时 OpenAI 更像是一家纯粹的研究公司。如果你还记得,ChatGPT 是一个低调的研究预览版,团队推出时并没有预料到它会成为如此成功的产品。它只是一个让我们能够玩玩模型、进行迭代的方式。

所以当时 OpenAI 主要是一家研究公司,一家顶尖的研究公司。随着 ChatGPT 的增长,我们开发了 B2B 产品、API 等等,现在我们比以前更像一家产品公司了。我认为 OpenAI 永远不应该只是一家纯粹的产品公司,我们必须既是一流的研究公司,又是一流的产品公司,两者需要紧密合作。这是过去六个月我们显著改进的地方。

如果将两者分开,研究人员去做他们擅长的事情、训练模型,到某个阶段之后,产品和工程团队才接手做事,那么我们就只是自己模型的「 API 消费者」。

但是最好的产品,就像我说的 Deep Research,需要大量的迭代反馈。要理解你想要解决的问题,构建评估(evals),用评估收集数据,微调模型,让它在你想要解决的用例上表现得更好。

这需要大量的来回配合。我认为最好的产品是产品设计和研究人员团结在一起,像一个单一的团队那样探索和打造新技术和新产品。我们现在就是这样运作的,几乎所有的产品都是如此。这是我们的新能力,因为我们作为一家产品公司还算新手,但是大家都对此感到非常兴奋,因为每次这样做,我们都能打造出很棒的产品。现在每个产品都是这样开始的。

Lenny:OpenAI 有多少产品经理

Kevin Weil:其实不多,大概 25 个。我个人认为组织应该保持一个较小的产品经理团队。

我自己就是产品经理,但是太多的产品经理会带来问题,会让 PPT 和想法充斥世界,而不是实际的执行。所以我认为产品经理和比他们略多的工程师合作是好事,因为他们不会进行微观管理,会将影响力和决策的责任留给工程师。这意味着你必须拥有非常关注产品的工程师,我们很幸运拥有这样的人才。

我们有一个极其关注产品、积极主动的工程团队。产品经理努力理解问题,轻轻地引导团队,但是事情太多了,无法深入到每一个细节。这样你就能快速行动,这是我们的哲学。我们想要产品主导的工程师,贯穿始终。我们不想要太多的产品经理,但是我们的产品经理都很优秀。

Lenny:我猜在 OpenAI 做产品经理对很多人来说是梦想成真,但同时对很多人来说可能并不适合。这里有研究人员、产品导向的工程师。你在招聘产品经理时看重什么?对于那些想「也许我不应该去那里工作」的人,你有什么建议?

Kevin Weil:我提过几次,积极主动是我们非常看重的。不要等着别人允许你做事,看到问题就去解决,这是我们工作的核心。还要适应模糊性,这里有很多模糊性。有时我们公司的工作对初级产品经理来说会比较困难,因为这里没有人会告诉你「这是全景,这是你的领域,去做这个」。早期职业的产品经理想要这样,但是我们没有人有时间,问题定义不清,我们是边走边摸索。所以积极主动、适应模糊性、准备执行并快速行动,这是我们的制胜法宝。

同时,还要乐于通过影响力来领导。通常产品经理没有人直接向你汇报,团队也不归你管,再加上研究功能的复杂性,更难直接推动。与研究团队建立良好的关系非常重要,所以情商对我们来说也很关键。

Lenny:我知道在大多数公司,产品经理刚进来的时候,大家会想「我们为什么需要你」,产品经理需要赢得信任,证明自己的价值。在 OpenAI 可能是一个极端版本,他们可能会想「我们有研究人员、工程师,你来做什么?」

Kevin Weil:是的,做得好的时候大家会欣赏,但是你必须带领大家一起前进。我认为产品经理最重要的一点是果断。这里有一个微妙的界限,我不太喜欢「产品经理是产品的 CEO」这种说法。就像 Sam 如果在每次会议上都做出每一个决定,那么他很有可能会犯错,如果他从不做出决定,那也是错误的。

关键在于知道什么时候应该让团队进行创新,什么时候需要做出决定,当有人感到不舒服或者没有权限去做,或者当决定涉及到太多分散的利弊,需要有人拍板的时候。这是 CEO 的重要特质,Sam 在这方面做得很好,这也是产品经理在微观层面上的重要特质。因为模糊性很多,很多情况下答案并不明显。我期望产品经理在情况模糊、无人做出决定的时候,确保决定被做出,我们能够继续前进。


03

模型微调的价值被低估了

Lenny:未来的产品团队会是怎样的?你觉得产品团队的结构或构建方式最大的变化是什么?未来几年会怎样?

Kevin Weil:我认为你肯定会看到每个产品团队里都有研究人员。

我指的不仅仅是基础模型公司。坦白地说,我对整个行业有点惊讶,他们没有更多地使用微调模型。这些基础模型非常强大,我们的 API 能够做很多事情。但是对于特定的用例,微调总是能够让模型的表现更好。这可能只是时间问题,大家还没有完全习惯,但我确信这是未来的趋势。

模型会无处不在,就像晶体管一样,AI 会融入我们所做的一切。但是会有很多微调模型。因为你为什么不针对特定的用例定制模型呢?我觉得几乎每个团队都会有准研究人员、机器学习工程师,微调模型将成为构建大多数产品的核心流程。这是基础模型公司已经开始看到的趋势,并且会随着时间的推移扩展到更多的团队。

Lenny:我想到一个例子:Cursor 和 Windsurf 的创始人告诉我,他们使用 Anthropic 的 Claude Sonnet,但还有很多定制模型在帮助他们,让体验更好,不仅仅是生成代码,还有自动补全和预测下一步。你觉得团队会和研究人员一起构建什么样的微调模型?

Kevin Weil:微调模型的时候,你会给模型大量的例子,告诉它你希望它擅长什么。比如,「这是一个问题,这是一个好的答案;这是另一个问题,这是一个好的答案」,重复一千次或者一万次。突然之间,模型在特定的任务上就比最初的时候强大得多。我们内部都在使用这个方法,并且也应用了多个模型结合的方法。

不是说我有十个问题,就直接问 GPT-4o 这个基础模型。如果有十个问题,我们可能会使用二十个模型调用来解决,有些使用专门微调过的模型,有些使用不同规模的模型,因为不同的问题对延迟或成本的要求不同。针对不同的问题还会使用定制的提示,你可以训练模型在某些问题上表现得非常出色。

你需要将问题拆分成更具体的任务,而不是一堆高层次的任务。然后使用特定的模型针对每个小任务做到最好,最后将结果组合起来解决整个问题,很多优秀的公司已经在这样做了。我还看到很多公司只是给模型单一的、泛泛的问题,而不是拆分问题。我觉得未来会更多地进行问题拆分,并使用经过微调的特定模型。

Lenny:你的这个案例很有趣,你们是使用不同级别的 GPT 模型吗?

Kevin Weil:我们内部技术栈的某些部分会这样做。举个例子,客户支持:我们有超过四亿的周活跃用户,收到了大量的工单。但是我们可能只有大约三四十个客服人员,比任何类似的公司都要少得多,因为我们自动化了很多流程。

大部分问题都是通过内部资源知识库、回答问题的指导方针、个性化设置等来教模型的,然后让它自动回答很多问题。如果它对某个问题没有十足的把握,它可以建议一个答案,然后请人工进行审查,而这个人提供的答案就成为了模型的微调数据,告诉它在特定情况下正确的答案是什么。我们在不同的地方使用不同的模型,有些地方需要更多的推理,对延迟不太敏感,我们就使用推理模型(o 系列),有些地方需要快速检查,我们就使用 4o mini。

总的来说,特定的模型用于特定的目的,然后组合起来解决问题,这和人类解决问题的方式非常相似。一个公司可以说是一个模型组合,每个人根据大学所学的知识和职业经验被微调,拥有不同的技能,组合起来的输出要比个体强大得多。

Lenny:你提到了一个很多 AI 创业者关心的话题:OpenAI 或其他基础模型未来不会替代我的领域是什么?很多人不清楚是否应该在某个领域创业。你有什么建议或指导,关于 OpenAI 或基础模型可能不会涉足或创业者有机会创业的领域?

Kevin Weil:我记得投资人 Fred Wilson 在 Twitter 上说过一句话,一直让我印象深刻:不管你的公司有多大,多优秀,墙外总比墙内有更多聪明人。所以我们非常注重打造优秀的 API,现在有三百万开发者在使用我们的 API。

AI 能够从根本上改善我们的生活,但是不管我们多么有雄心,规模有多大,世界上有太多的用例和领域是我们没有能力亲自去做的。我们没有足够的人力,也没有足够的垂直领域的知识和数据去进入大多数领域。

就像我说的,数据是行业特定的、用例特定的,存在于某些公司的内部。每个行业、每个垂直领域都有巨大的机会,去打造基于 AI 的产品,改进现有的技术。我们不可能自己做到这些。我们不想,也不能。我们非常兴奋能够为三百多万(未来会更多)开发者赋能。

Lenny:你经常使用 ChatGPT,有什么能帮助你得到想要结果的技巧吗?

Kevin Weil:首先我想打破你觉得人们需要擅长提示工程的想法,如果我们这些模型提供商的工作做得足够好,人们就不需要掌握那么高的提示技巧,就像以前需要深入了解 MySQL 存储引擎用的是 InnoDB 4.1 之类的细节一样。一些专家级的用例可能需要复杂的提示,但是如果 AI 要广泛普及,就不能让用户总是关注这些提示词的细微差别。

我觉得我们正在进步,让模型比以前更少地需要提示工程了。不过我还是正面回答你的问题,结合我之前说的微调的重要性,你可以在提示中加入例子,做一种「穷人版的微调」。比如「这是一个问题,这是一个好的答案,现在请帮我解决这个问题」。模型会学习,虽然不如完整的微调效果好,但是比不给例子要强很多。只是人们并不经常这样做。


04

内部都不感兴趣的功能,

可能就不用做了

Lenny:你们为 GPT-4o 推出了图片生成功能,我的整个社交媒体时间线上,都被吉卜力风格的度假照、家庭照刷屏了。

Kevin Weil:是的,我的也是。我妻子也给我发了一张她的作品,所以我跟你一样感到兴奋。

Lenny:感觉这是 ChatGPT 推出以来 AI 领域最火爆的事情,你们预期到会这么成功吗?

Kevin Weil:在我职业生涯中,有几次这样的经历,内部开发一个项目或产品时,内部使用量突然呈现爆炸式增长。比如我之前在 Instagram 开发 Stories 的时候就是这样。我们能感觉到它会成功,因为我们内部都在使用。在正式推出前,我们周末出去玩,大家都在用这个功能。

图像生成绝对是这样一个例子,我们内部玩了好几个月。当它第一次在公司内部上线时,有一个小型的作品展示区,你可以在那里生成自己的图像,也可以看到其他人生成的,内部也有持续不断的讨论。所以,我们有一种预感,这会非常有趣,大家会喜欢。

Lenny:这是一个很好的衡量标准,判断一个东西推出后是否会成功——那就是在推出前,内部的员工都为之疯狂

Kevin Weil:是的,特别是偏社交传播类产品,因为公司内部的社交网络非常紧密。如果你在做社交类的产品,如果内部都没有火起来,你可能真的要好好审视一下自己正在做的事情了。

Lenny:对了,那个吉卜力风格是怎么回事?是你们有意这样引导的吗?是故意给出的示例吗?

Kevin Weil:我觉得就是大家很喜欢这种风格,而且模型非常擅长模仿风格或理解用户的需求,它在遵循指令方面表现得非常出色。你可以给它非常复杂的要求,比如提供两张图片,一张是你的客厅,另一张是一堆照片、纪念品或者任何你想要的东西,然后你可以说「告诉我如何布置这些东西」。模型真的能够理解你的需求,并生成符合要求的图片,这太强大了。所以我很期待人们会发现各种不同的玩法。


05

模型评估很重要,

应该是 AI 产品经理的核心技能

Lenny:你在很多公司工作过,我很好奇,OpenAI 的日常工作和那些地方最大的不同是什么?

Kevin Weil:我想可能是节奏。或许有两点。

第一是节奏;

第二点是,在我之前工作过的所有地方,你大致清楚自己所依赖的技术基础是什么,所以你会花时间思考:你在解决什么问题?为谁打造产品?如何改善他们的生活?这个问题是否足够重要,能够改变用户的习惯?人们是否关心这个问题能否得到解决?这些都是优秀产品需要考虑的点,但是你用于构建产品的基础技术是相对固定的,比如数据库,你今年用的数据库可能比两年前的好 5%,但是 AI 完全不是这样。每隔两个月,计算机就能做到以前无法做到的事情,你必须彻底重新思考自己正在做什么。

还有一点,我们稍后可能会聊到「评估」(evals),在我们过去的世界里,我们习惯于在操作时给计算机非常明确的输入。比如在 Instagram,有各种按钮来执行特定的操作,你知道它们的功能。当你给计算机明确的输入时,你会得到明确的输出。你有信心,同样的操作执行三次,会得到三次相同的输出。

但是大语言模型(LLMs)完全不同。它们擅长处理模糊、细微的输入,人类语言和沟通的所有细微差别它们都能理解,而且它们不会每次都给出完全一样的答案。你可能会得到内容上相同的答案,但肯定不会每次都使用完全相同的词语。所以输入更加模糊,输出也更加模糊。

当你开发产品时,如果某个用例模型只能达到 60%的正确率,你会打造完全不同的产品;如果模型能达到 95%的正确率,又是另一种产品;如果能达到 99.5%的正确率,又会是不同的产品。所以你必须深入研究用例和评估,才能明白应该打造什么样的产品,这是根本性的不同。如果数据库测试一次能用,那么几乎每次都能用,但是在这个领域里并非如此。

Lenny:我们顺着「评估」这个话题继续聊下去吧。在之前的一次小组讨论中,你说一句话:编写评估将成为产品经理的核心技能。我觉得这可能不仅仅适用于产品经理。

很多人知道什么是评估,但也有很多人完全不明白我在说什么。你能简单解释一下什么是「评估」(eval)吗?然后为什么你觉得这对未来开发产品的人如此重要?

Kevin Weil:当然,我想最简单的理解方式是把它想象成模型的测验,用来测试它对某类主题的掌握程度,或者回答某类问题的能力有多强。

就像你上微积分课,然后有考试,看你是否学到了该学的知识。评估也是一样,测试模型在创意写作方面有多好?在研究生级别的科学方面有多强?在竞赛编程方面表现如何?你有一套评估,作为基准,来衡量模型有多聪明或者多有能力。

Lenny:简单来说,就像单元测试一样?

Kevin Weil:对,单元测试,或者说是模型的测试。

Lenny:那为什么这对那些不太懂评估的人如此重要?为什么这对打造 AI 产品如此关键?

Kevin Weil:回到我刚才说的,你必须知道模型在某些方面能够达到 99.95%的正确率,有些事情是 95%的正确率,有些是 60%的正确率。如果模型在某件事情上只有 60%的正确率,你必须以完全不同的方式来打造产品。而且,这些都不是一成不变的。

拿「Deep Research」来说,这是我最喜欢的产品之一。这个产品的理念是,你可以给 ChatGPT 一个关于任意主题的复杂查询,它不是简单地返回搜索结果,而是如果你自己来回答这个问题,你可能需要上网查阅资料,阅读论文,然后回来整理思路,发现逻辑漏洞,再去进行更多的研究,可能需要花费一周的时间,最终你才能写出一份 20 页的答案。现在你可以让 ChatGPT 替你忙碌 25 到 30 分钟,完成你一周的工作量。

我们在开发这个产品的同时,也在设计评估,思考产品应该如何运作。我们尝试寻找「典型用例」:设定一个你想要提出的问题,完成一个完美的答案,然后将这些转化为评估,再在这些评估的基础上不断优化。

所以模型不是一成不变的,你可以训练模型,让它持续学习。当我们为「深度研究」微调模型时,我们能够测试它在我们认为重要的评估指标上是否有进步。当你看到评估表现提升时,你就会说:「好,我们可以打造这个水平的产品了。」

Lenny:你还提到过,AI 的能力进化几乎被我们编写评估的能力所限制住了。你可以详细说说吗?

Kevin Weil:这些模型的智能是多维度的。举个软件工程领域的例子,你可以说一个模型在竞赛编程方面很强,但不一定在前端开发、后端开发,或者将 COBOL 代码转换为 Python 方面也很强。所以,这些模型可以被看作是非常聪明、知识渊博的智能体,但是世界上大部分的数据、知识、流程并非公开的。

就像你加入一家公司,前两周需要入职培训,学习公司特定的流程,接触公司特定的数据。模型足够聪明,你可以教它们任何东西,但是它们必须要有原始数据来学习。

所以,未来我们会有非常聪明、广泛适用的模型,然后针对特定公司或用例的数据进行微调,使它们在特定的公司或用例上表现优异,而你需要使用定制的评估来衡量它们的表现。我的意思是这些模型很聪明,但是如果数据不在它们的训练集中,你就必须教它们。有大量的用例不在训练集中,因为它们只与某个特定的行业或公司相关。


06

模型最大化:创业要瞄准模型马上就能实现的能力

Lenny:我临时想问一个问题,我很好奇,你对 Claude Sonnet 3.5 为什么这么擅长编码有什么想法吗?你们的模型会变得同样好或更好吗?

Kevin Weil:向 Anthropic 致敬,毫无疑问,他们打造了很棒的编码模型。我认为智能是多维度的,以前 OpenAI 在模型上拥有巨大的领先优势,可能领先十二个月,但现在不是这样了。

我认为我们仍然保持领先,但不是巨大的领先,这意味着在不同的领域会有不同的表现,比如 Google 的模型很强大,Anthropic 的模型也很强大,我们也有自己的优势,竞争对手会想「我们必须改进这个」。一旦有人证明某件事是可行的,改进起来就比开辟新的道路要容易得多。比如,以前没有人能跑进四分钟一英里,然后有人做到了,下一年又有十二个人做到了。这种现象在各个领域都有。竞争非常激烈,消费者、开发者、企业都将因此受益匪浅。

这也是行业发展如此迅速的原因之一。向其他大型模型提供商致敬,模型正变得越来越好。我们会尽可能快地推进,我们有一些很棒的模型即将发布。

Lenny:AI 技术改变了写作、设计、编码等创意工作,你认为下一个大的飞跃是什么?尤其是在 AI 辅助创意方面应该注意什么?

Kevin Weil:对于「 AI+创意内容」领域,我的态度非常乐观。我们此前聊到了图像生成,用户在 Twitter、Instagram 等社交平台上展示他们创作的内容。我是世界上最差的艺术家,给我纸和笔,我画得不如八岁的孩子。但是有了 AI 图像生成工具,我能够想出一些创意的点子,输入模型,它能够创作出我自己画不出来的画面,这非常酷。

我近期在和一个知名的导演沟通时聊到了 AI 视频生成工具 Sora。他分享了一个场景,假如要拍摄像《星球大战》这样的科幻电影,有一个场景是飞机冲向死星,从俯瞰整个星球切换到地面看到城市,应该如何处理这个过渡?他说两年前,他会花费十万美元聘请一家 3D 特效公司,该公司会花费一个月的时间给出两个版本,他进行评估,然后选择一个,因为他不可能再花费五万美元再等待一个月进行优化,只能使用。但是如果使用工具 Sora,他可以得到 50 个不同的创意版本,通过输入提示,和 Sora 模型一起进行头脑风暴,同时还可以迭代、精炼、融合不同的想法,最后再找 3D 特效公司制作最终版本。

我对 AI 创意领域的总体看法是,没有人会在 Sora 里输入「给我拍一部好电影」这样的提示,但 Sora 能够帮助人类探索更多创意的可能性,并获得更好的结果。

Lenny:Sam Altman 最近发的一条推文,提到了你们正在进行的创意写作项目,Altman 说他很不擅长创意写作,但是分享了一个模型生成的例子,效果真的非常好。

Kevin Weil:是的,我们内部有一些新的研究技术非常令人兴奋。Altman 有时喜欢展示即将推出的东西,这非常符合我们的迭代部署哲学。我们有突破性的进展不会藏着掖着,我们会谈论我们正在做的事情,在可以分享的时候就分享,尽早发布,然后公开迭代。我非常喜欢这个哲学。

Lenny:刚才你提到 AI 编码可能很快会有突破,此外还有什么人们可以期待的未来有趣且激动人心的产品或应用吗?

Kevin Weil:天哪,这还不够吗?

Lenny:人们总是希望听到更多的新消息。

Kevin Weil:对我来说最令人惊叹的是模型的迭代速度,我们每六到九个月迭代一个新 GPT 模型,比如 GPT-3、GPT-3.5、4。现在 o 系列推理模型更快,大概每三到四个月就有一个新的 o 系列模型,每次能力都有提升。模型能力提升的速度令人难以置信,成本也在规模化的情况下降低。

最初的 GPT-3.5 API 成本是今天 GPT-4o mini 的 100 倍。几年时间下降了两个数量级,智能却强大得多。模型更聪明、更快、更便宜、更安全,每次迭代「幻觉」都更少。

摩尔定律说晶体管数量每十八个月翻一番。如果模型的性价比每年提升十倍,那是更陡峭的指数增长。这告诉我们,未来会和今天非常不同。我经常提醒自己,你今天用的 AI 模型是你余生用过的最差的。人们应该真正理解这一点,这太疯狂了。

Lenny:我正想说同样的话,你提到 Sora,很多人可能会想「它还没准备好,不够好,没有我在电影院里看到的电影那么棒」。但是你刚才说的关键是,这是它最差的时候,它只会越来越好。

Kevin Weil:是的,「模型最大化」就是持续构建瞄准那些马上就能实现的能力,模型会一代代变得令人惊艳。


07

Chatbot 仍会是与 AI 交互最合适的方式

Lenny:虽然其他模型在某些方面可能更好,但 ChatGPT 似乎总是在认知度和使用量上领先。不管排名如何,人们一想到 AI 就会想到 ChatGPT。你觉得你们做对了什么,至少目前在消费者心智和全球认知度上取得了领先?

Kevin Weil:我觉得抢占先机非常重要,这也是我们注重快速行动的原因。我们喜欢第一个推出新的功能,比如 Deep Research。

我们的模型也非常全能,能够处理实时视频输入,能够进行语音对语音、语音转文字、文字转语音的转换,能够进行深度研究,能够在画布上操作,还能够编写代码。所以 ChatGPT 就像一个一站式商店,你想要做的事情几乎都可以在这里实现。未来我们会有更多的 Agent 工具,比如 Operator,它会为你浏览网页、处理事务。你会越来越倾向于来到 ChatGPT 这个平台,给它指令,让它为你完成现实世界中的事情,这具有根本性的价值。我们非常关注这一点,并努力快速行动,以确保我们始终是人们最有用的选择。

Lenny:你在开发 AI 产品或在 OpenAI 工作后,学到的最违反直觉的事情是什么?有什么让你觉得「我没料到会这样」的?

Kevin Weil:我觉得有趣的一点是,当你想要弄清楚某个 AI 产品应该如何运作,甚至为什么某个 AI 现象是真实存在的时候,你可以用推理人类的方式去思考,而且往往是行得通的。

举几个例子,我们首次推出推理模型时,它不像以前那样每次提问就立刻给出「系统 1」的答案,比如「神圣罗马帝国第三代皇帝是谁」,就直接回答。

你可以问它一些难题,它会像人一样进行推理。如果我让你做填字游戏,你不会立刻填完,而是会思考「这条横线可能是这两个词之一,那这里有个 A,所以这条线肯定是这个词」,一步步地回溯,就像解决复杂的逻辑或科学问题一样。这种推理能力是一个巨大的突破,但这也是模型第一次需要「坐下来思考」。

这对消费产品来说是一个又新又奇怪的模式,通常你不会问一个问题然后等待 25 秒。所以我们一直在思考 UI 应该如何设计?

因为这不像深度研究,模型会思考 25 分钟。你不会盯着它看 25 分钟,你会去做别的事情,打开一个新的网页标签或者吃午饭,回来就好了。但是如果是 20 秒或者 10 秒,这个时长你需要等待,又不够长到去做别的事情。

所以你必须思考,如果我问你一个问题,你需要思考 20 秒,你会怎么做?我不会沉默 20 秒然后再开口,我们不应该只是在那里放一个恼人的滑动条。但是我也不会把每一步的想法都说出来,所以我们不应该直接展示模型的全部思考链。但是我可能会说「这是一个好问题,我可以这样考虑」,给出一些小的更新。我们最后发布的功能也是这样设计的。

还有类似的情况,比如让一群模型共同攻克同一个问题,然后再让一个模型整合它们的输出,给你最终的答案,你会得到更好的思考结果。这有点像头脑风暴?我和别人一起头脑风暴的时候,想法会更好,因为他们和我思考的方式不同。所以在很多情况下,你可以用人类或者群体的方式进行推理,效果会很不错。

Lenny:我看这些模型运作的时候,从来没有想过你们在设计这种体验。对我来说,模型就是那样工作的,坐在那里告诉我它在想什么。我喜欢你说的「让它像人一样运作」。人是怎么运作的?他们会大声说出来,思考应该探索什么。我也喜欢深度研究的极端例子,它把所有的过程都展示出来,人们似乎也很喜欢。你觉得这令人惊讶吗?

Kevin Weil:是的,我们从中学到了很多东西。最初发布的时候,我们只给了模型思考的副标题,没有展示太多过程。然后 DeepSeek 出来了,它把思维链完整地展示了出来,我们觉得「不是每个人都想要这样」。

看到模型的真实想法有一种新鲜感,我们内部也觉得看模型的思考链很有意思。但是对于四亿用户来说,你不想看模型在那里啰嗦一大堆。所以我们用有趣的方式进行总结,不仅仅是给一个副标题,而是关于它是如何思考的一两句话,你能从中学习到一些东西。我们找到了一个中间地带,觉得这对大多数人来说是一个有意义的体验。但是给每个人三段关于模型思考过程的文字可能并不是正确的答案。

Lenny:设计更优质用户体验的大模型产品的关键,就是想想「 人类」会怎么做吗?

Kevin Weil:不一定总是想人会怎么做,但有时为了直觉地找到解决问题的方法,是想人类在类似情况下会做什么,至少能提供一个不同的视角来看待问题。因为我们经常和人类对话,遇到各种各样的情况,有很多可以学习借鉴的地方。

Lenny:这让我想起你在峰会上说的另一件事:人们经常嘲笑 chatbot 不是未来与 AI 交互的界面。但是你提出了一个很有趣的反驳观点:人类喜欢通过说话进行交互,和 AI 聊天也是这样,能够适应各种智能水平。关于聊天为什么是大模型一个有趣的界面,你还有什么想法吗?

Kevin Weil:也许这是我坚信,但大多数人不相信的东西。我觉得 chatbot 是一个非常棒的界面,因为它太灵活了。人们经常说「聊天?我们会找到更好的界面」。我觉得这是非常通用的,因为这就是我们说话的方式。我可以像现在这样和你进行口头交流,可以看到彼此的互动,也可以在 WhatsApp 上发送文本消息,但这些都是非结构化的沟通方式,是我们人类的运作方式。

如果我和你说话必须使用一个更加死板的界面,我们可以聊的东西会少很多,反而会妨碍我们最大化沟通的带宽。所以这其中有一种魔力。过去这种方式行不通,是因为没有模型能够理解人类语言的复杂性和细微差别,而这正是大模型的魔力所在。对我来说,这是一个完美契合这些模型力量的界面,但这并不意味着未来永远都只是打字。如果你想要一个开放且灵活的沟通媒介,用户进行表达,由模型作出回应,同时仍希望采用最基础、无限制的交互方式。

Lenny:这真有趣,你的观点彻底改变了我对此事的看法。chatbot 特别适合与超级智能进行交流。

Kevin Weil:顺便说一句,也不仅仅是聊天。如果是高频、特定用例,不需要完全的通用性,很多情况下,更有限、更快、针对特定任务的界面会更好,这些也很棒。但是你仍然需要聊天作为基线,来处理任何超出你特定垂直领域的东西。它就像一个万能公式,涵盖了你想对模型表达的一切。

原播客:

《OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more》

https://www.lennysnewsletter.com/p/kevin-weil-open-ai


图片

(文:Founder Park)

发表评论