深度|95后AI独角兽Scale AI CEO:未来核心竞争力将转向数据主导的专属模型与高效智能Agent的全面部署

图片来源:Y Combinator

Z Highlights

  • 随着智能Agent系统的发展,数据、交互环境与评估机制正逐步演变为AI时代的核心资产。企业若能将自身独有的业务流程抽象为高质量数据集,并构建可支持强化学习和任务验证的运行环境,就具备了持续打造差异化模型的能力。这种能力,将在未来成为决定性竞争优势。

  • Agent正在重塑系统运行模式,从企业日常运营到科学研究,再到军事体系的决策指挥,正全面深入介入各类核心流程。通过将人类工作流系统性转化为可自动执行的协作机制,并持续优化推理能力与响应速度,智能Agent不仅大幅提升了执行效率,更在推动知识生成、复杂系统管理和国家级战略部署等关键环节迈向高度智能化、自动化的新阶段。

  • 面对快速演化的技术周期,真正拉开差距的往往不是产品本身,而是对趋势的判断力与对潜在需求的敏锐洞察。企业只有敢于在行业尚未成型之际押注长期方向,提前积累能力与资源,才能在拐点到来时抢占先机,把握住那些注定爆发的无限市场这种前瞻性的决策思维,正成为AI时代创业者的稀缺资产。

本次访谈发布于2025618日的Y Combinator原创节目《Lightcone》,由YC总裁兼CEO Garry Tan与合伙人Jared FriedmanDiana Hu主持。受访嘉宾为Scale AI创始人兼CEO Alexandr Wang。访谈主要围绕大模型演进、智能Agent应用、数据与国家安全等话题,深入探讨了AI技术如何重塑企业运营模式、社会结构与全球竞争格局。

在快速演进的AI浪潮中突围:Scale AI早期决策背后的思考逻辑

Garry Tan在我们录制这期Lightcone节目、采访Scale AI首席执行官Alexandr Wang之后,Meta宣布将向Scale投资超过140亿美元,这笔交易令Scale的估值达到了290亿美元。同时,Alex也宣布将出任Meta新设立的AI超级智能实验室的负责人。你即将听到的这段访谈,回顾了促成这项投资的来龙去脉,从ScaleYC的初创时期,到它在基础模型训练中发挥的重要作用。我们现在开始吧。

欢迎收听本期《Lightcone》节目。今天我们请到了一位特别嘉宾——Scale AI的创始人Alexandr WangJared,其实你在Scale创立初期就和Alexandr共事过。那时候是哪一年?带我们回到那个时刻吧。

Jared Friedman好的,Alex,今天我们主要想聊的是Scale现在在做的事情,因为现在Scale的发展真的非常精彩、非常吸引人。不过既然Scale是从Y Combinator起步的,我觉得从最初开始聊也挺合适的。很有意思的是,Diana和我上个月去了趟MIT,跟一些大学生交流,结果发现,在所有创业者中,他们最崇拜、最想效仿的,竟然是你。大家都知道你从MIT辍学、创办了Scale的故事,人人都想成为下一个Alexandr Wang,但其实他们并不了解故事的全貌。所以我觉得不妨从头说起,聊聊你当初是怎么从MIT辍学、最终走上创办Scale这条路的。

Alexandr Wang在我去MIT之前,我在Quora工作了一年。那是2015年到2016年,哦不对,应该是2014年到2015年。我当时是一名软件工程师。其实那个时候市场上就已经出现一种趋势了:所谓的ML engineer的薪资已经比普通软件工程师更高了。

之后我还参加过一些由理性主义者社群组织的夏令营,那些夏令营是为一些有潜力的青少年举办的。但组织者中,有不少人后来都成为了AI行业的重要人物。比如说Paul Christiano,他就是RLHF的提出者,现在是美国AI安全研究院的研究总监,之前也在OpenAI工作了很长时间。Greg Brockman当时也来做过演讲,Eliezer Yudkowsky也讲过。

我大概十六岁的时候,就接触到了一个非常深远的理念:AIAI安全可能是我一生中最值得投身的事业。这种思考很早就进入了我的视野。后来我十八岁进了MIT,我当时就非常深入地研究了AI,基本上我白天的主要精力都在做相关的事情。但渐渐我有点坐不住了,于是申请了Y Combinator

我最初的想法其实是想探索一下,AI能用在什么地方?那时候刚好赶上chatbot的热潮。这现在听起来有点疯狂,但当时确实掀起了一股小规模的chatbot热潮。当时是2016年,那波热潮可能是被像Magic这样的应用带起来的,还有Facebook当时也有一个庞大的chatbot战略。所以我们最开始想做的项目,其实是想做给医生用的聊天机器人。想想都觉得有趣,因为你们真的了解医生这个群体吗?

Jared Friedman完全不了解。我们当时只是觉得,医生这个行业听起来是个收入很高的职业。

Alexandr Wang我觉得这段经历其实也挺能说明一些问题的。你们应该也经常看到,很多年轻创业者最初的十个想法,往往都有很强的模仿性,不是约会App,就是社交工具,大家脑子里想的都差不多。而且我觉得,大多数年轻人其实并没有很好地理解创业中alpha的概念,就是哪些事情是他们真正有独特优势去做的。根本原因在于,他们对自己其实也没什么清晰的认知。

在我们参加YC的时候,和另一家公司合住。那段时间正好赶上chatbot的小热潮,我们也在旁边看着。但很快就发现,要真正把chatbot做出来,其实非常依赖大量数据,还需要大量人工,就是你得投入很多人力来打磨它,才能真正起效。然后我们当时脑子一转,就想:那我们干脆别做chatbot本身了,直接来做为chatbot的公司提供支撑所需的训练数据怎么样?比如语言数据、人工标注数据什么的。

其实那会儿我们也挺迷茫的,可能你还记得,整个YC中期我们状态挺迷茫的,就跟很多其他YC项目一样。后来就逐渐明确了方向,开始转向做一个可以将人类劳动力包装成服务型API的产品。然后有一天晚上我随手在网上搜域名,发现scaleapi.com居然还没被注册,我们就立刻买下来了,一周后就正式上线并发布到Product Hunt上。

Jared Friedman我记得Product Hunt上那个页面现在还在,我昨晚还在看。印象特别深的是你们当时的标语,好像就是一句话:一个用于调用人类劳动力的API。在我看来,这就是你们当时提炼出来的想法:如果我们能像调用API一样调用一个人,会怎么样?

Alexandr Wang我们只用了大约三天就搭好了登陆页面,并在Product Hunt上发布了。这个想法在当时的创业圈引发了一些想象力,因为它代表了一种奇特的未来主义:API不再只是机器与机器之间的通信接口,而是可以被用来调动人类来完成任务。

Jared Friedman这就像是一种反转,是人类为机器工作,而不是机器为人类工作。

Alexandr Wang是的,最开始那段时间其实挺有意思的,我们就是跟一些通过Product Hunt找上门来的工程师合作,这些人提出的用例五花八门、千奇百怪。但这其实已经足够支撑我们当时去融资并把公司运转起来了。几个月后我们逐渐意识到,自动驾驶可能是我们真正要专注的第一个重点应用场景。所以在公司最初一年的时间里,我们其实做出了很多重大的决定。

Diana Hu有件事我认为挺有意思的:在那个阶段,其实市面上已经有一些类似的解决方案了,比如亚马逊的Mechanical Turk,当时算是业内默认选择。但你们却吸引到了一群完全不了解Mechanical Turk的新用户,而且你们提供的API体验好得多,结果反而赢了。当时其实大家可能经常会把你们拿来和Mechanical Turk比较,但结果却出乎意料。

Alexandr Wang是的,Mechanical Turk在当时确实是大家最熟悉的解决方案。很多人都听说过它,但凡真正用过的人几乎都会觉得它体验非常糟糕。所以当你进入一个领域,发现人们都知道某个工具,但又普遍觉得它很差劲,这通常就是一个挺不错的市场信号。光是这一点,就给了早期的我们信心。

不过我认为,真正促成公司成功的关键,是我们聚焦在自动驾驶这个看似小众、实则高潜力的场景上。我还记得大概在我们离开YC公司六个月之后,另一家YC公司Cruise在官网上主动联系我们,结果一转眼,他们就成了我们的最大客户。

Jared Friedman他们就是通过你们最初在Product Hunt上的发布找到你们的吗?

Alexandr Wang是的,我记得可能甚至是通过Google搜索,总之不太确定,但大致上就是通过我们最初的发布找来的。当时在Cruise有位前YC创业者看到了我们的信息,然后联系了我们。这可能是YC社区的某种神秘感应吧。谁知道呢,这世界的运作方式总是奇妙莫测。

但他们后来迅速成长,成为了我们最大的客户之一。所以我们在早期就做出了一个关键决定。我记得我们当时去找我们的领投投资人,和他开了一个会,说:我们现在觉得,应该专注在自动驾驶这个方向。这次对话其实挺有意思的,因为对方的第一反应是:这市场太小了,显然做不大。但我们当时的判断是:这个市场其实远比你想象的要大。因为当时有很多自动驾驶公司拿到了大量融资,传统汽车厂商也在投入巨资研发自动驾驶项目,而且整个趋势非常明确。我们觉得,这个东西早晚要成形。

所以我们想,如果我们聚焦做这件事,应该能更快把业务规模做起来。回头看其实挺有趣的,因为两件事都对:一方面,这确实帮助我们迅速搭起了公司的基本盘;但另一方面,这个市场也确实不够大,无法支撑起一家巨型企业。某种程度上,Scale的成长史,就是一条不断拓展的路径:如何持续在AI这个高度动态的领域中前行、进化和发力。我们一直引以为傲的,是能不断在这个快速演变的行业中找到立足点,持续创造价值。

扩展规律揭示大模型未来极限:Scale AI如何提前布局并抓住时代红利

Garry Tan你是什么时候真正开始意识到扩展规律的?因为有个挺有意思的说法是:你有点像数据界的黄仁勋。

Alexandr Wang我觉得在自动驾驶领域,大家其实并没有太关注扩展规律。根本原因在于,整个算法必须运行在汽车本身上,而这就对计算资源有很大限制。在你手上能用的算力非常有限的时候,很多工程师和公司根本不会去考虑什么扩大模型规模这类事,他们关注的是:如何不断打磨算法,在保持体积足够小的同时,让它表现得更好。

我们是在2019年开始和OpenAI合作的,当时正值GPT-2时代。那之前的GPT-1更多还只是一个实验性的项目。而到了GPT-2OpenAI会在各种大型AI会议上设展位,让研究人员可以现场体验和模型对话。虽然效果谈不上惊艳,但已经开始显现出一些可能性,还是挺吸引人的。真正让扩展规律这个概念变得清晰明确的,是GPT-3的出现。我记得那是在2020年,那时我们开始意识到大模型的潜力远比之前想象的更大。

Jared Friedman那时候还没有多少人真正意识到大模型的发展潜力。那你自己呢?你是不是早在2020年,就已经隐约觉得这会是Scale接下来主要的发展路线?还是说直到ChatGPT爆火之后你才完全确信?当时你心里的把握,是三四成,还是已经有八九成了?

Alexandr Wang我觉得在2020年,其实就已经可以看出扩展规律会变得非常重要了,但当时还没有到特别确定的程度。我记得有一次经历挺深刻的。当时我拿到了GPT-3的早期测试权限,可以直接在OpenAI Playground上体验。于是我就拉了一个朋友一起玩,我跟他说:你可以直接跟这个模型对话。结果我们一边试一边聊,我朋友竟然开始对这个AI感到明显的沮丧和愤怒,不是那种这破玩意儿真傻的态度,而是一种有点被冒犯了的反应,情绪上带着点私人情绪。那一刻我意识到:哇,这个东西真的跟以前的任何系统都不一样,已经有了质的变化。

Diana Hu你那时候觉得它已经能通过图灵测试了吗?我感觉它当时已经开始显现出一些仿真的对话表现了。

Alexandr Wang是啊,当时就好像能隐约看到它有可能通过图灵测试。但我觉得,真正让大家意识到生成式AI这个概念的其实是DALL-E,虽然生成式AI这个词本身在当时都还没完全固定下来。我认为是DALL-E让所有人都信了这个方向的潜力。而对我个人来说,GPT-3当时就已经非常吸引人了,所以我们公司把它当作众多方向之一来尝试。

但从2022年开始,随着DALL-EChatGPTGPT-4等的相继出现,再加上我们还参与了InstructGPT的合作,这一切都让我们非常清晰地意识到:这是一次必须全力以赴的重大转折,不只是对我们公司而言,其实对整个世界都是如此。

Diana Hu这正是我们也开始意识到整个行业正在发生巨大转变的时候。因为就在2022年底,GPT-3.5发布的那一刻起,我们开始看到大量公司和聪明的从业者在2023年纷纷转向,调整方向,重塑战略。

Alexandr Wang你刚才提到的那个比喻:把Scale比作数据界的NVIDIA。我觉得在那个阶段已经变得非常明显了。尤其是到了GPT-4的时候,我们真切感受到:扩展规律确实成立,而对数据的需求将不断膨胀,几乎会吞噬人类所拥有的一切可用信息和知识。那一刻,我们意识到,这将是一个极其庞大、近乎天文级别的机会。

全参数微调打开新路径:数据、环境与评估将成为AI时代的新型核心资产

Garry Tan是的,GPT-4似乎是第一次真正能够做到几乎不再产生虚构。在某些特定的受限领域中,它甚至可以实现一次完全没有虚构和编造的交互体验。对此,传统观点认为,如果模型产生虚构内容,要么是因为提示或上下文中提供的数据不充分,要么是试图在一次推理中完成过多任务。

Alexandr Wang是的,我觉得推理模式现在非常有潜力。过去这一轮模型能力的提升其实很有意思,因为它的进步并不是主要来自于预训练阶段,而是正在转向一种新的扩展路线,主要依赖的是模型的推理能力和强化的学习能力,而这效果出奇地好。我认为,AI和摩尔定律之间的类比其实也很明显:虽然你会不断切换到不同的技术曲线上,但如果从更宏观的视角来看,模型的进步会呈现出一种平滑而持续的演进趋势。

Garry Tan有一件事最近在一些非常知名的大型封装应用中逐渐显现出来,那就是他们开始获得对基础大模型进行全参数微调的权限。这在你们的业务中是一个重要组成部分吗?或者说,大家来找你们,是不是就是为了这种面向特定领域的、用于全参数微调的数据集?

Alexandr Wang是的,我认为这将成为未来的一种蓝图。现在,真正完成大规模全参数微调或强化学习微调的模型数量其实还很少。但如果你从未来的视角来看,有一种可能是每家公司的核心知识产权,可能就变成了它们自己专属的模型,或者说是为其定制微调的大模型。就像今天大家普遍认为,一家科技公司的知识产权主要体现在它的代码库上;未来大家可能会认为,一家公司的专属模型,就是支撑其内部流程运作的核心资产。而它们能在通用模型基础上做出哪些特别的增强?我认为很可能是添加那些只存在于它们特定业务场景中的数据和环境,也就是那些每天在实际工作中遇到的、别人接触不到的现实中的信息。只有他们自己有,因为没有哪家公司面对的业务流程会完全一样。

Garry Tan但这里其实也存在很多利益冲突。我记得有一次,我们的几个来自一家顶尖的大模型公司的朋友,他们跑来问我们:你们觉得YCYC的创业公司能不能把它们的评估数据给我们,用来训练模型?我们当时就说:不行啊兄弟,你在说什么?他们怎么可能会愿意那样做?那可是他们产品的护城河啊。

不过现在回头看,结合我们刚刚的讨论,其实也能理解为什么他们会问这个。因为在强化学习训练循环中,评估确实是一个非常重要的环节。但有意思的是,评估本身其实还不是最有价值的部分。真正有价值的,是那些针对企业自己数据集和问题域,经过完整微调后的模型。这才是核心资产。

Alexandr Wang是啊,就像搭乐高积木一样:你有了数据,有了运行环境,还有基础模型,再把这些一层层叠加起来,就能得到一个专属的微调模型。当然,评估体系也很关键。这也是其中的一部分利益冲突所在。而这背后其实就是一个核心问题的缩影:AGI到底会不会演变成一个巨型集成体,把整个经济体系像一个超级公司那样整合吞并?还是说,未来仍会保留一个多样化、专业化的经济结构?我个人其实更倾向于后者。

我认为这些模型会像平台一样存在,但真正的超额收益将来自这样一种能力:企业是否能把自身的问题、挑战与业务场景,转化为专属的数据集或运行环境,并基于此构建出差异化的模型与AI能力。

Garry Tan是啊,这也是为什么他们来要评估数据让我觉得简直不可思议。因为你想啊,一旦你把评估数据给了对方,他们用一个更强的基础模型进行训练,那你原本赖以建立优势的东西,现在所有竞争对手也都能拥有了。你辛辛苦苦构建出来的壁垒,就这样被轻易攻破了。

Alexandr Wang我认为,在AI发展过程中,我们终将逐步理清哪些东西是不可触碰的红线。就像现在对科技公司而言,大家都有直觉地知道,绝不能随便泄露自己的代码库或数据库,数据和代码是绝对不能外流的。而在一个由AI强力驱动的经济体系中,也会逐渐浮现出类似的类比物,比如评估数据、企业自有的数据、所处的业务环境等等。这些都将成为新一代的核心资产,是不能随便外借或共享的。

Agent接管执行,人类专注设定目标与排错:AI时代的工作新模式

Diana Hu我认为,你对未来工作岗位的塑造方式持非常乐观的技术观点。尤其是在工作形态将如何变化方面。你能展开讲讲吗?因为你之前提到过一个观点:未来的工作会变得更加专业化,并不是说所有工作都会被取代,对吗?

Alexandr Wang首先,有一点是毋庸置疑的:我们正处于一种全新工作模式的起点。多年来,人们一直在谈工作方式的未来这个概念,而现在我们确实已经迈入了这个未来,或至少是它的下一个阶段。工作方式的本质正在发生改变,但我相信未来仍掌握在人类手中。我们依然拥有足够的主导权,可以决定这种工作方式的重构究竟如何展开。

你可以在编程领域清楚地看到这种转变。某种程度上,编程就是整个未来工作的试验田。一开始,AI主要是助手型的角色:你在写代码,模型偶尔帮你补全、修改;接着是Agent协作的模式,比如你与一个AI伙伴实时互动,就像在做合作编程;而现在,随着Codex等系统的发展,已经明显进入“Agent集群阶段:你会同时调度一批AI来执行多个任务,像指挥一支虚拟团队。而这个角色,其实在现有职场里已经有个很明确的定义:这就是管理者。你不再是亲自写每一行代码,而是负责协调一群智能员工去完成目标。

有人会担心,即便是这个管理AI的人类角色,也最终会被更强的AI替代。但我不这么认为。因为管理不仅仅是任务分配,它更关乎愿景的设定、目标的判断,而这些仍是基于人类的需求与动机。所以我相信,未来经济的终极形态,归根到底,就是大规模的人类管理大规模的智能Agent,这是一个以人为中心的系统,只是执行层更高效、更自动化。

Garry Tan我有个挺有趣的例子:我的一个创始人朋友想提拔自己团队里一位非常聪明的年轻员工。这位员工负责Agent基础设施,能力非常强。于是创始人就和他说,我在考虑让你迈出管理的第一步。虽然你以前没带过人,但如果我们在你手下再招几个人,你愿意试试看管理角色吗?结果这位二十多岁的工程师直接表示不感兴趣。他说:我为什么要去管人?你就多给我点算力就行了。你看看这个模型,上个月还干不了的事,这个月什么都能做了,我根本没做什么。与其让我带团队,不如让我多调几个Agent。这样我一个人也能跑完整个系统,不需要人。这个例子很典型地反映了现在技术人员对人管人传统路径的重新思考:在有了可控智能Agent后,技术型人才越来越倾向于调度智能Agent,而非传统意义上的管理人力。

Alexandr Wang我在想人类未来真正擅长、不可替代的事情到底有哪些?我认为,设定目标这一能力非常关键。另外还有排查错误,也就是在系统出问题时修复它的能力。以我作为管理者的经验来说,大部分时间其实都花在为系统灭火、处理突发状况上。很多人理想中的管理工作,好像是员工来干活,而我只要高层监督一下,看起来很轻松。但现实往往是一团混乱。

有些人会幻想说,未来只要管理一群AI Agent,自己就能过上那种贵族式的悠闲生活,所有问题都由智能Agent自动解决。但我并不这么认为,这件事依然会很复杂。要让多个智能Agent协同工作、让整套流程顺利衔接并能及时排查错误,本身就是复杂系统工程。拿自动驾驶的经验来看,从做到90%到做到99%准确率,差别巨大,后者需要投入成倍的资源和精力。Agent系统的规模化部署,可能也会遇到类似的最后10%难题

Diana Hu是的,即便到了现在,自动驾驶系统仍然需要远程协助来应对那些极端边缘场景。也就是说,在最关键的时刻,依然需要人类在背后操作,进行远程介入并指挥车辆。

Alexandr Wang没错,而且据我了解,虽然这些公司没有公开数据,但远程操作员与车辆的比例大概是15,甚至可能更低,比如每3辆车就需要一个远程操作员。这个比例远低于大多数人的想象。也就是说,即便是自动驾驶,背后仍然有大量人类参与,只是很多人没有意识到而已。

Diana Hu换个角度来看,其实这仍然是非常乐观的。如果你把结果产出看作是让车辆完成行程的话,那相比现在的Uber司机一次只能开一辆车,在未来的这种模式下,一个人可以同时远程管理五辆车,也就是说产出效率成倍提升了。

Alexandr Wang你要相信一个乐观的未来图景:随着技术高度发展,要想失业率依然保持较低水平,就必须相信人类的需求是近乎无限的。随着价格不断下降、经济变得更加高效,我们也会不断追求更多。这几乎是人类历史上始终如一的规律:我们总有新的欲望。因此我坚信,即便经济效率达到了极致,人类的需求也总能将这只永远装不满的水桶重新填满。

Garry Tan是的,在20世纪,特别是早期,当人们提到计算机时,想到的并不是我们今天所理解的那种机器,而是一个坐在穿孔卡片计算器前面的人。当时,计算机指的就是这些从事重复计算工作的真人。这曾是一份真实的职业。而到了今天,我们再谈计算机,想的已经是完全不同的东西,是真正的电子计算设备。

Diana Hu没错,当年阿波罗登月任务中,真正负责计算飞行轨道的,其实是一群人类计算机。他们手动计算各种复杂的轨道参数,而当时装载在火箭上的计算机,其实只是一个微控制器,运行频率只有个位数赫兹,计算能力极其有限。因此,整个任务的重心其实落在人类计算员身上。

Alexandr Wang没错,编程本身就像一个的魔法:你写下一段指令,机器就会无限次地照做,重复执行,几乎没有边际成本。在AI出现之前,很多硅谷人都觉得,编程是这个世界上最接近炼金术的东西。你只需写好一次代码,它就可以被无数次复制、运行、产生价值。而现在,这种高效率正从程序员扩展到整个劳动力市场。每一个行业的从业者都可能获得类似于程序员曾经独享的那种10倍、100倍的效率飞跃。这种变化令人兴奋,它意味着AI时代正在赋予普通人前所未有的生产力提升机会。

构建无限市场的不是产品而是判断力,敢于押注未成形需求

Jared Friedman你刚才提到Scale一直在不断调整方向,我想回到这个话题。如果让你来总结一下Scale的发展轨迹,你会怎么讲这段故事?其中有哪些关键的转折点?

Alexandr Wang我们最初的业务完全围绕着数据生产展开,为各类AI应用生成和提供训练数据。最初几年,我们主要服务的是自动驾驶公司,头三年几乎所有精力都集中在这个领域。专注于这项业务带来的一个重要特性是:我们必须不断提前预判和跟进AI的发展浪潮。

因为,AI想要在任何垂直行业真正落地,前提是要有高质量的数据。而我们产品的需求,往往会早于AI真正在这些行业内的普及。例如,我们在2019年就开始与OpenAI合作语言模型项目;2020年又开始为美国国防部提供政府和国防领域的AI解决方案,那时距离现在这股无人机和AI的热潮还很早。我们在企业市场的布局,也早于当下大家熟知的企业级AI应用浪潮。

所以从某种程度上讲,我们几乎是系统性地被迫走在AI浪潮的前面。我觉得这点其实跟NVIDIA非常相似。比如黄仁勋在发布会上谈论NVIDIA的未来和发展方向时,总是遥遥领先于当下趋势。因为他们必须在趋势真正到来之前就提前布局。这也是我们能够持续适应变化的原因之一。AI是我认为人类历史上发展最快的行业之一,每一次转折、每一次演进,节奏都非常快。

此外,从20215月到2022年初,我们开始转向应用层,着手构建基于AI的应用系统。现在更进一步,专注于面向企业和政府客户的Agent工作流和智能Agent应用。这是一次非常有趣的业务演化。我们之前的核心业务着重于运营:构建数据工厂,建立一整套流程来生成数据。这是一套高度依赖人力和专家判断、需要配套质检体系的复杂流程。正是这种重运营业务的成功,才为我们后续构建应用业务提供了动能和底气。

在正式进入这一领域之前,我研究了不少曾成功拓展出全新业务线的企业,它们为什么能成功,背后的关键特质是什么。其中我认为最独特、最具代表性的例子就是Amazon创立AWS。如果在2000年你写一篇短篇小说,说一家线上零售商未来会打造出一个大规模云计算、按需租用服务器的业务体系,这听上去简直是天方夜谭。

Jared Friedman我还记得2006AWS刚上线时,亚马逊的股价还下跌了——因为当时的分析师们普遍觉得这是个糟糕透顶的点子。

Garry Tan因为这前所未有、完全不可理解。

Alexandr Wang这听起来的确完全和亚马逊的主营业务无关,像是一个离奇的想法。但其中真正的智慧我认为体现在两方面:首先,据那些在AWS创立初期就参与其中的人回忆,当时最关键的一点是他们坚定地相信,AWS背后的商业模式将对应一个几乎无限增长的市场,全球对算力的需求将持续指数级扩张。如果他们能在这个方向上率先布局,就能通过规模化带来的成本优势占据绝对先机。

我认为,对于创业公司来说,早期通常是从非常小的市场切入,越小越好,只要能积累起足够的势能,然后逐步扩展市场。但如果你的目标是打造一家千亿美元级别的公司,就必须在某一时刻切换思维,去寻找无限市场,并且围绕它去构建产品与能力。

对我们来说,那一刻的转变就是认识到:未来每一家企业、每一个组织,都必须用AI技术来重构自身工作模式。而现在更进一步,重构的方式将由Agent驱动。这是一个终将覆盖整个经济体的巨大趋势。围绕AI应用与部署,服务企业与政府客户,构成了我们看到的另一个无限市场

Jared Friedman很多人可能还没意识到,Scale正处在这场转型的核心位置。外界仍然把你们视为一家数据标注公司,但如果你把时间快进到十年后,我认为Scale的大部分业务很可能都会转向Agent相关的方向。

Alexandr Wang对,我们现在在Agent方面的业务增长速度确实更快,因为这是一个无限市场。大多数市场的增长曲线其实都很有限,早期增长迅猛但很快趋于平缓。但你看那些超大规模科技公司,它们进入的往往是那种市场空间极其广阔的领域。所以从一开始,我们的策略就是聚焦于构建真正具备差异化的AI能力,而不是盲目扩张。

我们采取的是高度聚焦的方式,只为少数领先客户打造深度定制的AI应用,比如全球排名第一的制药公司、电信公司、银行、医疗服务商,以及美国国防部等政府机构。虽然听起来像是定制服务,但我们其实已经构建起一个数亿美元规模的AI应用业务,在整个行业中也算是最大的之一。我们的投资人就是这么评价的。

支撑这一切的基础,仍然是我们在数据领域的深厚积累。我们一直为全球最顶尖的大模型训练方生产高度差异化的数据,现在则是能把这种能力延伸到企业中,结合他们特有的业务数据,打造真正专属的AI应用系统。这也是我们所理解的AI的终局形态:每个组织都将拥有一个通过自己数据精细调优出来的AI系统,深度嵌入其业务流程。

Garry Tan说实话,听起来有点像Palantir的发展路线。

Alexandr Wang从最宏观的层面来看,是的,仔细一想还真有点像。

Garry Tan就像Palantir一样,你们本质上也是一家技术提供商。

Alexandr Wang我们确实是为全球一些最大的组织提供技术服务的公司,只不过我们的聚焦点是数据。不过,我认为我们和Palantir最大的区别在于:Palantir的重点在于构建数据本体、解决企业内部复杂的数据整合问题;而我们关注的核心是:什么样的数据能为你的AI战略带来真正的差异化价值。我们的目标是帮助你生成或挖掘出企业内部最具战略意义的数据,并用这些数据来推动AI的落地与发展。

Garry Tan我猜再过五到十年,你们最终会成为直接的竞争对手。但至少目前来看,这块市场还非常广阔。

Alexandr Wang其实我认为这是一个无限大的市场。

Garry Tan所以你们也有可能永远不会正面对上。

Alexandr Wang实际上就目前而言,说实话,我们跟Palantir的关系更多是合作而不是竞争。

Garry Tan没错这是因为这些大型组织面临的问题实在太庞大、太棘手,以至于他们往往只能摊手放弃,他们根本无法招到有能力解决这些问题的人才。但像ScalePalantir这样的公司却可以招到这类人,甚至就是那种会去申请YC的人。某种意义上可以这么理解。我现在脑海中的一条主线是:资本并不是问题,市场上有的是钱。真正稀缺的是那些既有技术能力又聪明乐观、愿意真抓实干的人才。这样的人,远远不够。

Alexandr Wang确实如此,这不仅适用于这些大公司,也适用于整个世界。顺着我们刚才关于Agent的讨论,真正令人兴奋的一点在于:AI的出现让这些少数拥有技术和执行力的人突然获得了接近无限的效率。所以,这种人才瓶颈很可能会被打破。就像云计算时代,虽然AWS是当之无愧的巨头,但其实还有很多其他云服务提供商也能在这个巨大的市场中占据一席之地。

Garry Tan因为这本身并不是一种赢家通吃的生意,所以也不必如此。

Alexandr Wang是的,完全同意。我认为这个市场实在太大了,大到根本不可能出现赢者通吃的情况。没有哪一家机构能具备足够广泛的运营能力,去吞下整个市场。

内部实践与Agent工作流:AI公司如何率先自我重构

Diana Hu说到运营,显然你们已经身处未来,这真的很酷。我想你们一定已经在用各种Agent和工具来提升Scale的效率、优化人力投入。能不能分享一些你们公司内部正在使用的实践?比如你们如何借助这些Agent,实现更少的人力完成更多的工作?

Alexandr Wang我们在很早的时候就察觉到了这种趋势。因为当模型开发者开始训练Agent、使用强化学习训练开发具备实际推理能力的模型,也就是能够真正完成完整闭环的工作流的模型时,Scale其实就负责为这些Agent提供关键的训练数据集。

我们亲眼看到了这种训练过程的效果有多惊人。特别是强化学习训练在Agent部署中的有效性可以说是非常惊人的。正因为如此,我们意识到:如果你能把原本由人执行的流程转化为强化学习训练所需的环境与数据,就有机会把这些人类工作流变成自动化的Agent流程。尤其是那些容许一定容错率、对稳定性要求不是极端苛刻的任务,尤其适合这种方式。

因此,我们现在公司内部已经有很多基于Agent的工作流,比如招聘流程、质控流程,甚至还有一些数据分析、数据处理、销售报告等自动化处理。这些都已经嵌入在公司各个核心部门的日常运作中。而这一切的核心,其实是一种思维方式:你是否具备这样的视角,去识别出那些高度重复的人工流程,并通过构建数据集,把它们转化为可以驱动自动化系统的输入。

Garry Tan这些数据集到底是什么样子的?比如说在浏览器场景下,是不是一个交互式环境?里面可能包括一段视频,记录了人类是如何一步步完成某个任务的,比如填写表单、选择下拉菜单中的。你能不能给观众举一个更具体、直观的例子?

Alexandr Wang我们内部有个典型流程,比如从候选人那里拿到一整套材料,然后需要把这些信息提炼成一个简明的摘要,方便提交给一个更大的决策小组参考。像这种流程,从整体上讲,其实属于深度研究再加点分析这类任务,是目前最容易实现自动化的场景。你可以把它理解为:需要在人机界面中不断点选、从多个位置提取信息,然后把它们整合起来,再进行一定的分析。这类任务本质上是基于信息的分析流程,是最容易转化为智能代理任务的类型。我们所需的数据形式,其实也不复杂。我们把它称为交互环境,但大致就是:任务的定义、完成该任务所需的完整数据集,以及一个衡量任务完成效果的评估标准或评分规则。

Garry Tan你认为现在还需要强化学习训练和微调吗?毕竟提示工程和元提示已经这么强了。

Alexandr Wang我觉得是需要的。我认为随着模型变得越来越强,提示工程的效果也会随之提升。但提示工程只能让你达到某个水平,而强化学习训练则能让你突破这个水平。不过说实话,这也是个很好的讨论点。我认为在我们实际的业务中,大多数情况下,光靠提示工程其实就已经能有很好的效果了。

Garry Tan我是说,这其实挺神奇的,因为你甚至都不需要去动模型本身。而且说实话,下一代模型会变得非常强大,评估的重点反而会变成怎么挑选模型,或者说,什么时候该切换到下一个更强的模型。

Alexandr Wang我确实认为,对于初创公司来说,他们基本上需要有一个策略,去思考如何逐步适应这条复杂性路径。无论你在构建什么产品或业务,都需要能够真正受益于这条路径,也就是模型能力持续提升所带来的红利,并能随之快速迭代、跟上它的节奏。

Diana Hu你其实还创建了一个排行榜,收录了很多非常困难的任务,目的是推动模型进入下一阶段并提升推理能力。你能跟我们讲讲这个排行榜吗?

Alexandr Wang我们和人工智能安全中心合作创建了一个项目,叫做人类最后的测验(Humanity’s Last Exam,这个名字挺有趣的。当然,说是最后,但现实中很可能之后还会有更新一代的测试。不过它的初衷是,我们希望能和这个领域里最聪明的一群科学家一起合作。我们不仅与很多杰出的教授合作,还与许多非常聪明的独立研究人员一起共事。

我们收集整理了一个数据集,这些数据题目都是由世界上最顶尖的研究人员提供的,是他们最近亲自解决过的、他们认为最难的一些科学问题。他们要么已经解决了这些问题,要么在这些问题上得出了正确的结论,总之这些题都是他们认为当前已知的、最具挑战性的问题。

Jared Friedman我很好奇你们是怎么设计出这些问题的。是每位教授都贡献了全新的题目?这些题以前从未出现在任何教材或考试中,完全是他们凭自己的理解、从脑海中构思出来,然后从零开始写下来的?我理解得对吗?

Alexandr Wang对,基本就是:你最近在研究中遇到过哪些特别难的问题?有没有那种你觉得非常具有挑战性的题目?

Jared Friedman这些题目难得离谱。

Alexandr Wang的确,有些题简直疯狂。

Jared Friedman我不知道你们有没有看过那些题,真的完全是疯狂等级的。

Diana Hu而且这些题在网上是查不到答案的。你必须具备非常深厚的专业知识,还得花很多时间真正去思考、推理,才能解出来。

Alexandr Wang是的,这些题对推理能力要求非常高。我们目前其实还对模型的思考时间设置了限制,大概是1530分钟之间。而最近有一个实验室还特地请求我们把这个时间延长到一天,他们希望模型能有整整一天的时间来思考这些问题。

因为这些题真的非常刁钻,难度极高。如果你对某道题涉及的领域没有深入的专业知识,基本不可能答对。不过,即便是这个评测本身,也体现出模型进步的速度有多快。我们刚发布这个评估的时候,是今年年初,那时表现最好的模型只能拿到大概7%8%的分数。而现在,最好的模型已经可以超过20%了。这个进步速度真的非常惊人。

Diana Hu那你觉得这个评测最终也会像其他基准测试一样被模型刷完吗?

Alexandr Wang我觉得最终肯定也会被刷完,然后我们就得继续设计新的评估方式。说实话,这个名字的好处就是它叫最后的测验。接下来的评测可能会更多聚焦在真实世界中的任务和活动上,而这些本质上会更加模糊复杂,不像考试题那样有明确答案。

Jared Friedman你自己有没有亲自解过这些题,Alex?我记得你以前是长期参加数学竞赛的。

Alexandr Wang我认为这些数学题都非常的涉及范围都很深入,基本都扎根在各自的专业领域里。我自己勉强做出了一小部分,但大多数题目实在是太难了,基本没戏。我主要是挑了那些模型能解出来的题去看了一下。那只是我们设计的其中一个评测,我们其实还做了很多其他的评估任务。

但我确实觉得整个AI行业目前依然缺乏那种真正困难的评测和测试,能清晰展现出模型能力边界的那种。这类评测一旦在行业里被广泛采用,就会起到一个更深层的作用。它会变成了大家看齐的方向,成了研究者努力优化的目标标准。所以这其实是一件非常有成就感的事情。

我们当时做了人类最后的考试,现在几乎所有的大模型开发者都会报告自己在这个测试上的表现,而且还有很多研究人员也因此受到激励,想要在这个评测上取得好成绩。说到底,模型接下来会在这些前沿研究难题上变得越来越强,强到几乎让人难以置信。

Garry Tan我现在开始在想,我们可能正接近AGI的第四阶段创新者出现的时刻了,而这很可能会在接下来一年左右到来。你觉得这个判断对吗?接下来的1224个月,会不会真的是这样一个关键时期,模型的推理能力将首次真正推动出新的科学突破?

Alexandr Wang我觉得这是非常有可能的,尤其是在像生物学这样被提到最多的领域。模型或许已经在某些方面对生物学有了比人类更强的直觉理解,因为它们拥有的是一种不同类型的智能。所以你可以预期,在某些学科里,模型会展现出对人类来说是根本性的深层优势。而在我看来,生物学可能是目前最明显的一个领域。

Diana Hu其实在化学领域,这样的突破已经发生了。去年的诺贝尔奖就颁给了谷歌团队,DemisJohn Jumper,还有他们开发的AlphaFold。那真的是一次巨大的飞跃。在那之前,科学界还有个比赛,目标是解决更多的蛋白质折叠结构,但进展非常缓慢。而AlphaFold一出来,直接碾压全场,把问题彻底解决了。

Alexandr Wang现在对科学家来说是一个很奇特的时代,但对科学本身来说却是一个令人兴奋的时刻。有个短篇小说就描绘了这样的未来:所有前沿的研发工作都是由AI来完成的,而人类科学家所做的,就是去观察这些AI发现了什么,然后试着理解它们。

我觉得这是个非常激动人心的时代,我们正在亲眼见证人类知识边界的扩展。而且这会带来巨大的现实影响,比如在生物学领域推动出医学、健康等方面的突破;与此同时,大部分经济体系仍会照常运转,继续满足人类的各类需求。而像中国开源大模型、比如DeepSeek的开源策略,也是一个非常值得关注的问题。这件事的发展会怎样?现在其实有点微妙:目前全球最强的开源模型之一,居然是来自中国。这无疑也是一个让人不得不正视的现实。

AI优势不再单单由模型性能决定:技术扩散、数据优势与智能作战正重塑全球格局

Garry Tan你觉得我们能做些什么,来确保是美国的模型保持领先?美国模型会一直领先吗?我总觉得事实恐怕不是这样。

Alexandr Wang在前沿模型的训练过程中,其实有很多不公开的秘密。当然,这些秘密听起来可能比它们本身更神秘,但其实很多都是隐性的知识,包括大量的训练技巧、经验直觉,比如超参数怎么调,训练过程中哪些细节最关键,怎么让模型稳定收敛。这些看起来很细碎的东西,积累起来就是训练大模型的核心门槛。而中国的研究机构之所以能这么快地推进,能加速到这种程度,部分原因就在于他们掌握了这些隐性知识。

Garry Tan我们在能源产能方面其实严重落后,而这完全是因为监管限制。这问题本来两秒钟就能解决,但到现在都还没有真正解决。

Alexandr Wang这是个大问题。虽然说过去不一定能预测未来,但你去看美国整体电网的产能走势,基本就是一条平的曲线,几乎没什么增长。再看看中国的整体电网产能,过去十年几乎翻了一番,曲线几乎是直线上升的。这差距非常明显。

Garry Tan我也看到了,真的令人震惊。说到底,我认为这就是一个彻头彻尾的政策失败。

Alexandr Wang从电力产能角度看,我们确实有问题;不过在芯片方面,我们是有优势的。从整体计算能力来看,我觉得最终美国还是会占上风。至于数据,这也回应了你之前提到的一些问题。我认为中国在数据这方面其实处于非常有利的位置。虽然这么说听起来有点奇怪,毕竟我们现在是在为很多美国公司提供数据支持。中国实际上已经启动了大规模的数据标注项目。他们在多个城市建立了七个国家级的数据标注中心,还有专门为AI企业设计的大规模补贴和代金券机制,用来鼓励数据标注的使用。甚至在高校层面也开设了配套的专业课程。当他们认定AI是一个战略方向后,就会去系统性地规划整个产业链上的就业岗位,并建立相应的人才输送机制。

我们在机器人数据上也看到了类似趋势。中国已经建起了成规模的机器人工厂,专门用于数据采集。更奇妙的是,现在很多美国的公司在训练自己的机器人基础模型时,也都在依赖来自中国的大量数据。总的来说,中国在数据这一块可能是有优势的。而在算法方面,美国整体上更具创新能力。

Garry Tan让我觉得真正可怕的是,比如看到Optimus这样的项目,或者YC旗下的一些机器人公司,比如Weave Robotics。你去看它们的软件部分,其实完全可以和中国的同类产品媲美,甚至在某些方面还更强。但一说到硬件,就完全不一样了。我们这边一台机器人的物料成本就是两三万美元起步——有时候甚至连高精度的螺丝都造不出来。而在中国,同样一台机器人,也许只要两三千、四千美元就能做出来。你随便走在深圳的一条街上,人家早就什么都齐了。这种情况下,我们怎么在一个国家级产业层面去跟他们竞争?这才是真正棘手的问题。

Alexandr Wang中国在制造业上的惊人能力,这是一个非常严峻的问题。这其实是一个根本性的问题。

Garry Tan是的,我也不觉得未来的博弈还会是战斗机或航空母舰主导的局面。更可能的是一种微型战争,甚至是超微战争,战争核心不再是大型武器平台,而是无人机和机器人这样的新型作战单元。

Alexandr Wang完全没错。无人机、机器人、网络战这些才是关键。过去冷战时代那种造出更大更强的炸弹的思维模式已经彻底过时了。现在的趋势正好相反,是朝着更小型、更灵活、更易替代的资源形态演进。我觉得这是当前非常核心的一条大趋势。

而另一条同样重要的趋势,就是我们所相信的:战争和防御正朝着“Agent主导的方向发展。也就是说,如果你真正去分析今天战争的实际运作,看看像俄乌冲突或其他战区的决策过程,会发现大部分关键决策仍然高度依赖人工判断,流程既缓慢又缺乏信息支持。许多战场上的关键决策都是在信息极其有限的情况下,通过人为流程做出的。这种低效几乎是结构性的。

但如果你引入AI Agent系统,情况就完全不同了。你可以实现几乎完全的信息对齐,决策也能在瞬间完成。所以我们正在见证一个重大转变:战争与冲突将越来越多地由Agent驱动。这种变化有可能让未来的冲突演变成一种人类几乎难以理解的、极高速推进的动态局面。

Jared Friedman你们现在其实也正在积极投入这方面的研发,对吧?有些什么是你可以谈的内容吗?我猜其中一部分可能是保密的。

Alexandr Wang是的,我们现在确实在做这方面的工作。我们正在和美国设在夏威夷的印太司令部合作,搭建一个叫做Thunder Forge的系统。它是目前美国国防部在AI应用于军事规划与作战方面的旗舰项目,主要服务于整个印太区域。我们做的事情其实就是我刚才说的:把现有的人类决策流程转化为由多个Agent协作完成的系统。军方一直是按作战规范来运作的,也就是遵循一整套成熟的军事计划流程。而我们的做法是,把这些流程中的角色和任务逐步转换成可以由Agent协作完成的模块。

然后你会看到一个巨大变化:原本可能需要72小时的关键决策周期,现在只需要10分钟。这种效率的提升完全改变了整个作战节奏。就像下棋一样,你和人类下棋,是一个慢节奏、思考为主的过程;但当你和电脑下棋时,对方几乎是瞬间回应,没有停顿。这就演化成一种持续压迫、毫不松懈的对抗方式。未来的战争,也可能就是这种节奏。

Garry Tan有时候最强大的功能,其实就是让你能立刻看到整个思考链路。因为我不只是想要一个答案,我更想知道你是怎么推理到那个答案的。真正看到模型的推理过程,这点本身就非常有价值。其实这也是为什么最初DeepSeek发布时那么引人注目的原因。虽然当时o1也已经发布了,但它隐藏了推理过程。

Alexandr Wang我觉得这也是这个领域中另一个很有意思的现象:到目前为止,这个行业的规律几乎可以这么解释:你可能会有一些非常先进的能力,你可以试着保密,试着封闭起来,但无论你怎么做,随着时间推移,它们最终都会被公开,或被复现,几乎是不可避免的。

真正的创始人模式:成功的本质是在乎每一个细节

Diana Hu很显然,Alex,你已经做了很多了不起的事情,也多次转型了你的公司,在许多领域都有深入的专业积累。那你有没有什么建议,能帮观众也变得像你一样成功?

Alexandr Wang我觉得最重要的一点是:你必须真的、真的、真的在乎你正在做的事。这其实是年轻人身上的一个优点,当你还年轻时,几乎所有事情在你眼里都无比重要,所以你会拼尽全力、关注每个细节,一切对你来说都充满重量感。而这种在乎的特质,其实非常关键。当然,每个人表现的程度不一样。

我多年前写过一篇文章,叫雇那些真正关心事情的人,核心观点很简单:你可以从一个人身上清楚地看出来,他是在敷衍完成,还是把自己的工作当作一件极其重要、带有使命感的事来做。那些真正关心工作的人,在没做好时会感到不安,做好时会由衷满足。这种对工作的投入感,是我在评估是否喜欢与某人共事、或一个人是否能在大规模环境中取得成功时最可靠的指标之一。

如果你要我选出一个最核心的共通点,我会说就是在乎。我自己非常在乎我们公司做出的每一个决策。我到现在依然亲自审阅公司的每一位员工。我们有一个流程,我会亲自批准或否决每一位新员工的录用。因为我非常在乎。我也和一群同样非常在乎的人一起工作。正因为我们都更敏锐地感知到公司里发生的一切,我们会更快做出调整,更快学习,更认真对待自己的工作,也更灵活地适应变化。我认为这一点对我们的成功至关重要。

Jared FriedmanAlex,你前阵子跟我讲了一个让我印象很深的故事。你说就在最近,哪怕Scale已经是个很大的公司了,你仍然亲自手动审核发给合作伙伴的所有数据,相当于是最后一道质量把关的人,甚至会指出,比如这个数据点不行,不够好,不能发出去。

Alexandr Wang没错,完全是这样。我想很多创始人应该都会有类似的体会:客户的感受会直接影响到你本人。当客户满意或不满意时,你会有很强烈的共鸣。如果客户不高兴,那对我来说真的是一种很深的痛感。

我们公司有一个价值观,叫做质量取决于每一个细节。我真心相信,高标准是会在组织内部层层传导的。你几乎不会看到哪家公司是下层比上层还要更重视标准的。大多数时候,如果一个员工意识到他的上级、甚至上级的上级并不真正关心某件事,那他自己也很难发自内心去在意这件事。

所以要让高标准真正深入人心,必须从上到下都保持对质量的执念。对我们来说,让成员深度在乎质量成为整个组织的核心信念,是极其重要的一件事。

Garry Tan样的创始人模式太强了。我们之后一定得再请你回来讲讲,非常感谢你今天抽时间跟我们聊了这么多,我们下次再见。

原视频:Alexandr Wang: Building Scale AI, Transforming Work With Agents & Competing With China

https://www.youtube.com/watch?v=5noIKN8t69U

编译:Shawn Chen

请注意,本文编译自文末载明的原始链接,不代表 Z Potentials 立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials 将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论