Datawhale热点
最新采访:Sam Altman,编译:AIGC开放社区
今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。
OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
在谈到火爆全球的AI Agent时,Altaman认为,2025年将是智能体大规模应用的一年,尤其是是在编程领域,智能体会成为主导力量。并在未来几年内,智能体作为“数字化劳动力”帮助各行业节省大量时间、提升工作效率以创造巨大商业价值。
其实在这之前,Altaman就曾在其个人博客上写了一篇深度长文,介绍智能体将如何增强世界经济、改变现有数字化工作模式。事实上,微软、OpenAI作为全球最大的智能体开发平台之一,在2025年已经有大量实际应用案例,包括众多世界500强客户。

下面「AIGC开放社区」将根据问答的形式,为大家整理了专访内容,期间Altaman也接受了现场观众的提问。英语好的小伙伴,也可以直接看原视频。
主持人:欢迎下一位嘉宾,SamAltman。你已经是这里的常客了,感谢你再次来到我们的活动现场。这里还是OpenAI的第一个办公室对吧?
Altman:是的,这里就是我们的第一个办公室。2016年的时候,我们刚刚起步,当时这里只有14个人左右,我们围坐在一起,看着白板,讨论着我们要做什么。那时候,我们更像是一个有强烈信念和方向的研究实验室,但并没有一个明确的行动计划。甚至公司或产品的概念都还难以想象,像LLMs(大语言模型)这样的想法还非常遥远。
主持人:说到2016年,当时你们有没有想过今天会取得这样的成就?
Altman:没有。当时我们只是在尝试一些新东西,比如玩视频游戏。现在我们在这方面已经做得很好了。不过,我们的第一个消费者产品并不是ChatGPT,而是Dolly。我们的第一个产品其实是API。我们尝试了几个不同的方向,最终决定要构建一个系统来看看它是否有效。我们不仅仅是写研究论文,我们还尝试玩视频游戏、操作机器人手等。
完整视频
后来,我们开始尝试无监督学习,并构建语言模型,这导致了GPT-1、GPT-2的出现,到了GPT-3时,我们觉得这个东西有点酷,但还不知道该怎么用它。我们也意识到,我们需要更多的资金来继续扩展。从GPT-3到GPT-4,我们进入了数十亿美元模型的世界,这对于纯粹的科学实验来说很难做到,除非你像粒子加速器那样的项目。
于是,我们开始思考如何将这个东西变成一个可以支撑所需投资的业务。我们觉得这个方向可能会变得有用。我们曾将GPT-2作为模型权重发布,但并没有引起太多关注。
我观察到的一个现象是,如果你做一个API,通常会有一些好处。这在许多YC公司中都是如此。而且,如果你能让东西变得更容易使用,通常会有很大的好处。所以,我们决定写一些软件,很好地运行这些模型。我们没有去构建一个产品,因为我们不知道该构建什么,而是希望通过API让别人找到可以构建的东西。
2020年6月左右,我们发布了GPT-3API,世界并没有太在意,但硅谷却觉得这有点酷,觉得它指向了某种东西。尽管大多数世界没有关注,但一些初创公司的创始人觉得这很酷,甚至有人说这是AGI(通用人工智能)。我记得唯一真正用GPT-3API构建实际业务的公司是一些提供文案撰写服务的公司。那是GPT-3唯一超过经济门槛的用途。
但我们注意到,尽管人们无法用GPT-3API构建很多伟大的业务,但他们喜欢与它交谈。当时它在聊天方面很糟糕,我们还没有想出如何通过RHF(可能指某种技术或方法)让它更容易聊天,但人们仍然喜欢这么做。从某种意义上说,这是API产品唯一的杀手级用途,除了文案撰写,这也最终促使我们构建了ChatGPT。
到了ChatGPT3.5发布时,可能已经有八种类别而不是一个类别可以用API构建业务。但我们坚信人们只是想与模型交谈。我们曾做过Dolly,Dolly表现还可以,但我们知道我们想构建这个模型,这个产品,让你能够与模型交谈,并且随着我们能够进行的微调,我们更坚定了这个想法。这个产品在2022年11月30日左右发布,大约六年的时间里,今天已经有超过5亿人每周都在使用它。
主持人:是啊,你已经参加了我们三次活动,期间经历了许多起伏,但似乎在过去六个月里,你们一直在快速推出产品。你是如何让一家大公司随着时间的推移加快产品发布的速度的?
Altman:我认为许多公司犯的一个错误是,它们变大了,但并没有做更多的事情。它们只是变大了,因为它们本应如此,但它们发布的产品数量却没有增加。这就是当事情变得像糖浆一样黏稠时。我喜欢让每个人都忙碌起来,让团队保持小规模,并且要做的事情要与你拥有的人数成正比,否则你就会有40个人参加每个会议,在产品的小部分上争吵不休。
有一个古老的商业观察结果是,一个好的高管是一个忙碌的高管,因为你不想让人们无所事事。但我认为,在我们公司以及许多其他公司中,研究人员、工程师、产品人员几乎创造了所有的价值,你希望这些人忙碌且具有影响力。
所以,如果你要扩张,你最好做更多的事情,否则你就会有很多人坐在房间里争吵、开会或讨论各种事情。所以,我们尽量让相对较少的人承担大量的责任。而要让这种方式奏效,就需要做很多事情。而且,我们真的认为现在有机会去构建一个重要的互联网平台。但要做到这一点,如果我们真的要成为人们在许多不同服务中、在他们的生活中以及在所有这些不同类别和较小类别中使用的个性化AI,那么我们需要弄清楚如何启用这些东西,这就有太多的东西需要去构建了。
主持人:在过去六个月里,有没有你特别自豪推出的东西?
Altman:现在的模型已经很好了。当然,它们仍然有需要改进的地方,我们正在快速地进行改进,但我认为ChatGPT已经是一个非常好的产品,因为模型本身非常好。当然,还有其他因素也很重要,但我对一个模型能够如此出色地完成如此多的事情感到惊讶。你们正在构建小型和大型模型,做很多事情,正如你所说。那么,观众们该如何避免成为你们发展的障碍呢?
Altman:我想,把我们看作是人们的核心AI订阅和使用那种东西的方式就好。其中一部分将是ChatGPT内部的内容,我们还会有一些其他真正关键的部分。但大部分情况下,我们希望构建越来越智能的模型。我们会有一些类似未来设备、未来事物的界面,这些有点像操作系统。然后,我们知道我们还没有完全弄清楚API或SDK,或者你想叫它什么,以真正成为我们的平台。但我们会有办法的。
这可能需要我们尝试几次,但我们最终会做到的。我希望这能够在全球范围内创造巨大的财富,并让人们在上面构建东西。但我们会去构建核心AI订阅和模型,然后是核心服务,还有很多其他的东西需要构建。所以,不要成为核心AI订阅,但你可以做其他所有事情。我们会尝试的。如果你能提供比我们更好的核心AI订阅服务,那就太好了。
主持人:有传言说你们正在筹集400亿美元的资金,估值达到3400亿美元。那么,从现在开始,你们的雄心壮志有多大呢?
Altman:我们会继续努力打造出色的模型,推出优质的产品,除此之外并无其他宏大的计划。我们坚信,只要专注于眼前的任务,就能取得成功。我们深知,要实现目标,需要大量的AI基础设施,需要构建大规模的AI工厂,不断提升模型性能,打造卓越的消费级产品以及完善相关配套服务。我们以灵活应变著称,会根据世界的变化及时调整策略。至于明年要构建的产品,我们现在可能都还没开始思考。我们有信心能够打造出人们真正喜爱的产品,对我们的研究路线图也充满信心,目前从未像现在这样乐观。研究路线图上当然是要打造更智能的模型,但我们只会专注于眼前的一步或两步。你相信向前推进,而不是倒推规划。
Altman:谁有问题?有人要提问吗?
观众:您认为大公司在转型为更AI原生的组织方面,无论是使用工具还是生产产品,都做错了什么?很明显,小公司在创新方面远远超过了大公司。
Altman:我觉得这在每次重大的技术变革中都会发生。这对我来说并不奇怪。他们做错的事情和他们一直以来做错的事情一样,那就是人们和组织都非常固步自封。如果每季度或每两季度事情都在快速变化,而你有一个每年只开一次会以决定允许使用哪些应用程序以及将数据放入系统意味着什么的信息安全委员会,那真的是太痛苦了。但这就是创造性破坏,这就是初创公司获胜的原因,这就是行业发展的方式。
我对大公司愿意这样做的速度感到失望,但并不惊讶。我的预测是,还会有一两年的挣扎,假装这一切不会改变一切,然后是最后时刻的投降和匆忙行动,但那时已经太迟了。一般来说,初创公司只是以旧的方式超越了人们。这也会发生在个人身上,比如和一个20岁的年轻人聊聊,看看他们是如何使用ChatGPT的,然后和一个35岁的人聊聊,看看他们是如何使用它的或其他服务的,差异令人难以置信。这让我想起了智能手机刚出来的时候,每个孩子都能非常熟练地使用它,而年纪较大的人则花了三年时间才学会基本的操作。当然,人们最终会融合在一起,但目前在AI工具上的代沟是疯狂的,而公司只是这种现象的另一个症状。
主持人:有没有人还有问题?只是跟进一下,年轻人使用ChatGPT的哪些酷炫用例可能会让我们感到惊讶?
Altman:他们真的把它当作一个操作系统来使用。他们会以复杂的方式设置它,将其连接到许多文件,并且他们在脑海中记住了相当复杂的提示,或者你知道的,他们会复制粘贴这些内容。当然,这些都很酷,也很令人印象深刻。还有另一种情况,那就是他们不会在不做决策之前不询问ChatGPT他们应该做什么。
它拥有他们生活中每个人的完整上下文以及他们所谈论的内容,你知道的,记忆功能在这方面发生了真正的变化。但总的来说,可以简化为,老年人将ChatGPT用作谷歌的替代品,也许30多岁和40多岁的人将其用作生活顾问,而大学生则将其当作操作系统。
主持人:你们在OpenAI内部是如何使用它的呢?
Altman:它为我们编写了很多代码。具体有多少,我也不清楚。而且,当人们提到代码数量时,我觉得这总是很愚蠢,因为你说微软代码中有30%是……以代码行数来衡量是如此荒谬的方式。也许我能说的有意义的事情是,它正在编写真正重要的代码,而不是那些无关紧要的部分。
主持人:下一个问题。我觉得阿尔弗雷德关于你们想去哪里的问题的答案很有趣,主要集中在消费者和核心订阅上,而且你们的大部分收入也来自消费者订阅。那么,为什么在10年后还要保留API呢?
Altman:我真的希望所有这些最终都能合并成一件事,比如你可以用OpenAI登录其他服务,其他服务应该有一个令人难以置信的SDK来接管ChatGPT的UI。但就目前而言,你将拥有一个了解你的个性化AI,它拥有你的信息,知道你想要分享什么,也知道你生活中的所有上下文,你将希望能够在很多地方使用它。当然,我同意目前版本的API离那个愿景还很远,但我认为我们可以做到。
主持人:有人想接着问一个问题。你刚才说的有点像我的问题。我们这些构建应用层公司的人,我们想使用这些不同的API组件,甚至是尚未发布的深度研究API,并用它们来构建东西。那么,这会是你们的优先事项吗?我们应该如何思考这个问题?
Altman:我认为最终会有一种介于两者之间的新协议,类似于HTTP,用于未来互联网的发展。在这个协议下,事物将被联邦化并分解为更小的组件,智能体将不断地公开和使用不同的工具,而身份验证、支付、数据传输等功能都将在这个层面上内建,每个人都相互信任,所有事物都能相互交流。我并不完全清楚这将是什么样子,但它正在逐渐从迷雾中显现出来。随着我们对它有了更好的理解,这可能需要我们经过几次迭代才能实现。但这就是我想看到的发展方向。
观众:嗨,Sam。我对在游乐场中尝试语音模型感到非常兴奋,我有两个问题。首先,语音对于OpenAI在基础设施方面的优先级有多重要?你能分享一下你对它将如何出现在产品和ChatGPT核心产品中的看法吗?
Altman:我认为语音极其重要。老实说,我们还没有开发出足够好的语音产品。没关系。就像我们在开发出优秀的文本模型之前也花了一段时间一样。我们会解决这个问题的。当我们做到这一点时,我认为很多人会更倾向于使用语音交互。当我第一次看到我们目前的语音模式时,最让我感兴趣的是它在触摸界面之上开辟了一个新的交互层面,你可以一边说话一边在手机上点击操作。
我仍然认为语音与图形用户界面结合会有一些令人惊叹的创新,但我们还没有找到。在那之前,我们会先让语音变得真正出色。而且,我认为这不仅会使现有设备更加酷炫,而且我认为语音将能够催生出全新的设备类别,只要我们能让它达到真正人类水平的语音交互。
观众:类似的问题。关于编程,我很好奇,编程只是另一个垂直应用,还是它在OpenAI的未来中更具核心地位?编程在未来OpenAI的定位是怎样的?
Altman:编程在未来OpenAI的定位中更为核心。目前,如果你向ChatGPT提问,你得到的是文本回复,或许还有图像。但你希望得到的是一个完整的程序。也就是说,你希望这些模型能够通过编程来在现实世界中执行各种操作,比如调用一系列API等。
因此,我认为编程将处于一个核心类别中。我们当然也会通过API和平台将其公开。不过,ChatGPT在编写代码方面应该表现出色。所以,我们会从助手时代过渡到智能体时代,最终实现应用的全面升级。这个过程会感觉非常连贯。
观众:我有一个关于路线图的问题。你对更智能的模型充满信心,我有一个心理模型,其中包含一些要素,比如更多的数据、更大的数据中心、Transformer架构、测试时计算等。有没有一些被低估的要素,或者一些可能不在大多数人心理模型中的东西,但会成为其中的一部分?
Altman:这些要素每一个都很困难,当然,最大的杠杆仍然是重大的算法突破。我认为可能还有一些10倍甚至100倍的改进空间,虽然这样的机会不多,但即使有一个或两个也是意义重大的。不过,算法、数据、计算能力,这些是主要的要素。
观众:嗨,我有一个问题。你领导着世界上最优秀的机器学习团队之一。你是如何在让像Issa这样的聪明人追逐深度研究或一些看起来令人兴奋的东西,和自上而下地推动项目,比如我们打算构建这个,我们打算让它实现,尽管我们不知道它是否可行之间取得平衡的?有些项目需要如此多的协调,以至于必须有一些自上而下的协调,但我认为大多数人在这方面做得太过头了。我们花了很多时间去研究一个运作良好的研究实验室是什么样子的。事实上,几乎能给我们提供建议的人都已经去世了。
人们经常问我们,为什么OpenAI能够持续创新,而其他AI实验室却只是模仿,或者为什么生物实验室X没有取得好成绩,而生物实验室Y却取得了好成绩。我们一直在说,我们观察到的原则是什么,我们是如何从历史中学习它们的。然后每个人都说,好的,但我要去做别的事情。我们说,没关系,你来找我们是为了寻求建议,你想做什么就去做吧。但我发现,我们尝试运行研究实验室的这些原则,我们并没有发明它们,我们是毫不羞愧地从其他优秀的历史研究实验室抄袭过来的,这些原则对我们来说效果很好。
然后,那些自认为有聪明的理由去做其他事情的人,结果并不成功。我认为这些大型模型的一个真正有趣的事情是,作为一个热爱知识的人,它们有可能让我们回答这些令人惊叹的长期人文问题,比如循环变化、艺术等有趣的事情,甚至还可以检测社会中是否存在系统性偏见等微妙的事情,这些是我们以前只能假设的。我想知道OpenAI是否有关于与学术研究人员合作的想法,或者是否有路线图,以帮助解锁这些我们第一次能够学习的新事物,无论是人文科学还是社会科学。
Altman:我们确实有学术研究项目,我们与研究人员合作,有时会做一些定制工作,但大多数时候,人们只是说,我想访问这个模型,或者也许我想访问基础模型。我认为我们在这方面做得很好。我们激励结构的很大一部分是推动模型变得尽可能智能、廉价和广泛可用,这很好地服务于学术界和整个世界。
所以,我们大约90%的努力都集中在让通用模型在各个领域变得更好。我很好奇你是如何看待定制化的。你提到的联邦化,比如用OpenAI登录,带来你的记忆和上下文。我只是好奇你如何看待定制化,以及这些不同的应用特定的后训练是否只是试图让核心模型变得更好的一种权宜之计。
Altman:从某种意义上说,我认为理想的状态是一个非常小的推理模型,拥有万亿个标记的上下文,你可以将你整个生活都融入其中。这个模型永远不会重新训练,权重永远不会定制。但它能够在你的整个上下文中进行推理,并且高效地做到这一点。
你生命中的每一次对话、你读过的每一本书、你收到的每一封邮件、你查看过的每一件事都在其中,再加上你从其他来源连接的所有数据。你的生活不断追加到上下文中,你的公司也会对公司的数据做同样的事情。我们今天做不到这一点。但我认为任何其他东西都是这种理想状态的妥协,我希望我们最终能够实现这种定制化。
观众:你认为未来12个月里,大部分价值创造会来自哪里?是更先进的记忆能力,还是允许智能体做更多事情并与现实世界互动的安全性或协议?
Altman:从某种意义上说,价值将继续来自三个方面:构建更多的基础设施、更智能的模型,以及构建将这些东西整合到社会中的框架。如果你推动这些方面,我认为其他事情会自行解决。在更详细的层面上,我认为2025年将是智能体完成大规模应用的年份。特别是编程领域,我预计这将是一个主导类别。
明年,我认为会有更多像人工智能发现新事物的情况,也许人工智能会取得一些重大的科学发现,或者协助人类做到这一点。你知道的,我有点相信,人类历史上大部分真正的可持续经济增长来自于在你已经遍布全球之后,大部分来自于更好的科学知识,然后将其应用于世界。
然后在2027年,我认为这一切将从智力领域转移到物理世界,机器人将从一个新奇事物转变为一个真正的经济价值创造者。但这只是我目前的一个即兴猜测。
主持人:我可以补充一个问题吗。现在有了更多的视角,你对这里的创始人们有什么关于韧性、耐力和力量的建议吗?
Altman:随着时间的推移,事情会变得更容易。作为创始人的旅程中,你会面临很多逆境,挑战会变得更大,风险也会更高,但随着时间的推移,应对这些挑战的情感负担会变得更容易。所以,在某种意义上,尽管抽象地说,挑战变得更大、更困难,但你的应对能力、积累的韧性会随着时间的推移而增强。
而且,我认为对于创始人来说,最大的挑战不是挑战发生的时候。在公司历史上,很多事情都会出错。在事情发生的那一刻,你可以得到很多支持,你可以依靠肾上腺素来应对。
你知道的,即使是真正的大事,比如公司耗尽资金倒闭,也会有很多人来支持你。你可以度过难关,然后继续前进。我认为真正难以应对的是危机之后的余波。人们更多地关注如何在危机发生的那一刻、第二天或第三天应对,而真正有价值的是学会如何在危机发生后的第60天,当你试图重建的时候,如何应对。我认为这是一个可以练习并变得更好的领域,谢谢大家。
END
(文:Datawhale)