甲小姐对话九章云极DataCanvas方磊:算力不应成为大宗商品,应该成为零售|

和手机流量包类似,算力也能实现“按需购买,按度计量”。

作者|甲小姐 田思奇

“我经历了算力行业从边缘走向中心的巨大转变。”


多年未见,方磊向我透露了ChatGPT发布以来,他最深切的感受。


清华毕业赴美,获弗吉尼亚理工大学博士学位后,方磊曾在西雅图任职于早期的微软Azure和必应。2013年,他回北京创办了九章云极DataCanvas——一家以中国古代数学经典《九章算术》命名的人工智能基础设施供应商。

方磊观察到,全球范围内,算力供需间存在显著的结构性错配。


九章云极DataCanvas率先在国内以原创概念“1度算力”为计量单位,推出类似手机流量包的“算力包”产品,用“按需购买,按度计量”的计费模式替代高门槛的“裸金属”租赁服务。


据方磊介绍,传统的独占式算力租赁模式对机器的起租数量、租赁时间都有硬性要求,一次性投入至少百万元。但 “算力包”对客户更加友好,“第一,投入更便宜;第二,使用更灵活;第三,大幅度降低了决策风险。”


纵观AI发展史,算法、数据和算力的权重持续演变。算法需要千行百业的数据要素,而这一切又需要匹配足够算力。从数据科学家到算力企业家,方磊的重心也在从算法向算力转变。面向未来,方磊判断,普惠算力是推动智能发展的关键因素。


本文甲小姐对话九章云极DataCanvas董事长方磊。



1.“2024年是算力变成公共服务的元年”

甲小姐:很久没见,重新介绍一下九章云极DataCanvas?


方磊:我先从九章云极DataCanvas名称的起源谈起。“九章”是我国历史上第一部关于算法的著作《九章算术》,“云”代表云计算,“极”代表一个极大的数量级——10的48次方,象征大数据的无限潜力。公司的核心理念是将大数据与算法结合,成为人工智能基础设施的提供者,满足各行各业对大模型能力的需求。


2013年我刚回国时,当时模型的应用范围相对有限,主要服务于数据科学家这一小群体。直到2019年,我们观察到各行各业开始探索将人工智能技术应用于自己的特定场景中,这让2019年成为技术落地的关键转折点,模型的重要性也不断提高。


甲小姐:这之后另一个关键节点是2022年11月30日的ChatGPT发布。在那之后,国内科技市场发生了什么变化?这期间你又经历了什么?


方磊:市场上最重要的变化就是信心,大家相信新的科技革命终于降临。所有人对于未来的想象和投入都发生了变化——需求的变化通常取决于投入的变化,而投入的变化是靠信心来支撑。


我个人经历了算力行业从边缘走向中心的巨大转变。曾经的小众市场发展成为一个全球性的、广受认可的重要市场。在这个过程中,某些原本仅被视为特定行业基础能力的元素,已经演变为全国乃至全球范围的基础设施,这是我这段时间最深切的感受。


甲小姐:从边缘走向中心,成为基础设施的临界点是什么?


方磊:基础设施的蜕变发生在它变成公共服务的那一刻。


人类社会历史上有很多基础设施,公路、铁路、电力。当一个基础设施变成公共服务时,是它的商业价值的转折和体现。类似于高速公路开始收费时,巨量基础设施的投入就转变成了可以实现收益的商业行为,电力、互联网都有类似的特征。算力的逻辑非常类似,2024年就是算力变成公共服务的元年。

这种蜕变背后的逻辑是,普惠的基础设施是应用创新的推动力。当电很便宜,道路很便宜,高铁很便宜,这些基础设施提供的公共服务很便宜了,人们的智慧、行业的实践才能够发挥出来,可能才能形成未来的杀手级的应用和千行百业的场景。这是每一代基础设施商业化的规律,这个规律也适用于算力这个基础设施。算力的提升不仅能提高数据处理和分析的速度,也为机器学习和深度学习等AI应用提供了强大的支持,对维护国家安全和提升竞争力具有重要意义。因此,算力作为基础设施,正逐渐成为推动社会发展的重要力量。


甲小姐:一些观点认为AI算力已处于泡沫高点,你认同吗?


方磊:我不同意。从各个角度分析,我们都尚处于起步时期。


回顾历史,例如在19世纪60年代尼亚加拉瀑布的水电站建设时期,当时的报道盛赞其拥有10万匹马力的发电能力,《纽约时报》对此发表文章,认为这样的发电量非常大,可能连整个纽约州都用不完。然而按照当今中国的标准来看,那个水电站可能只算是小型设施。


我们对未来的设想往往受限于我们当前的认知和理解水平。正如19世纪的人们难以想象今天电力的普及和重要性,我们也同样难以预测未来技术的发展潜力和影响范围。


甲小姐:面对一个可能巨大的未知需求市场,我们如何判断目前算力供给够还是不够,投入是少了还是多了?


方磊:预测本身极具挑战性,但相对值的比较可以提供参考的锚定。从国内市场看,当前算力供给已相当可观,一些调研报告指出,未来三年内投资将达到3500亿元人民币。但与全球市场相比,这一数字则显得较小。XAI的一个集群就有10万块英伟达H100,Meta一家公司的采购额就达到150亿美元。


甲小姐:假设我们以上帝视角看待此刻的AI浪潮,全球AI产业催生的算力总投入,会收敛到某一个数字,还是成为无限投入的游戏?


方磊:一定会收敛。从历史数据来看,芯片及其配套软件服务的附加值通常维持在2.5到3倍的关系。也有观点认为,算力对GDP的拉动效应约为1:4的比例。如果未来AI促使全球GDP增长十倍,算力行业所占份额顶多为25%。这个数字仍然很庞大,但肯定可以根据计算得出。


然而,人类对于智能的探索是一场无限游戏。算法的进步与对智能本质的理解,仍有巨大的未知可以探索。




2.“只有以精确标准度量算力,才有可能把庞大的算力基础设施变成可分割、可分配的普惠‘算力包’,销售到千家万户”

甲小姐:此刻中国算力市场有什么痛点?


方磊:我的基本判断是,全球范围内,包括中国,算力建设存在显著的结构性错配


虽然有证据表明算力租赁价格下降,还有很多佐证说算力过剩,但我们仍需分析算力供给的不同形态。


一种形态是纯粹的硬件算力供给,即裸金属,用户可以租用英伟达或国产GPU的硬件资源;另一种形态是能力供给,即提供AI能力,用户只需提供数据,系统便自动完成训练。


裸金属的租赁市场类似大宗商品交易,主要面向大型企业或具有强大投资能力的买家;而许多行业客户需要的是零售市场中的算力,即按需购买特定时间段的服务。


当前算力建设主要由大型企业引领,他们倾向于建设类似于“大楼”的基础设施,既可以自用,也可以出租。这种供给与中长尾市场中千行百业的实际需求不匹配,这些企业需要的是更加灵活、按需提供的“酒店式”服务。


因此,市场上存在供需失衡——虽然有足够的“大楼”来满足超大型企业的需求,但对于需要定制化服务的中小企业来说,这种供给并不友好,它会限制算力在更广泛行业中的落地和应用。概括来说就是“供给相对固定,需求比较灵活”。


甲小姐:算力“用起来”与“造出来”的重要性不分伯仲。


方磊:并且算力的性能并不是总能完全转化为用户的使用体验。就像一辆法拉利虽然可以标称最高时速达到300公里,但实际可能由于各种原因无法达到这一速度。同理,在算力领域,算力硬件端的指标并不直接等于使用端的感受,软件能力对于确保用户能够充分利用硬件性能至关重要。


软件并非可有可无,软件是效率的因子。以大规模的GPU集群为例,如果软件的协调和调度能力不足,可能只能发挥硬件10%到20%的效能。在投资数亿建设的智算中心中,软件效率20%到30%的差异可能会在经济收益上产生决定性的影响。


甲小姐:这意味着操作系统的重要性。请介绍一下你们的智算操作系统。


方磊:我们的智算操作系统叫Alaya NeW,全称是Alaya NeW World。Alaya本身是佛教里阿莱耶什的英文,代表智慧的种子。


我们开发Alaya NeW智算操作系统是想践行“软件定义算力”的理念。Alaya NeW能够将GPU、网络和存储设备等硬件资源整合起来,转化为客户可以直接使用的算力,就像手机需要安卓和iOS一样。目前它已经成为Alaya NeW Cloud智算云服务的软件基础设施,未来将以智算云服务的方式,面向更多云用户。


许多人可能认为,GPU云服务无非就是将GPU资源作为智算中心提供给用户。他们没有深刻认识到GPU云和CPU云的本质区别。


用户在CPU云上租用的是虚拟机,其工作负载是高度发散的,可以租主机做直播,打游戏。这种模式下,IaaS(基础设施即服务)是基础,PaaS(平台即服务)和SaaS(软件即服务)建立在其上。我把资源切片卖给你,之后做什么由客户决定。


在GPU云时代,情况呈自上而下的特点,用户对于工作载荷的目的和用途有相对明确的认识。我们卖给客户的技术产品不是一个虚拟机,我们称它为Serverless(无服务器)。该服务已包含所需的计算资源、软件和工具,用户无需关心底层的硬件配置,只需专注于模型的训练任务。


甲小姐:GPU云和CPU云为什么会存在这种区别?


方磊:简而言之,两者面向的计算任务不同,GPU更接近“纯运算”。当前CPU更像一台调度器,GPU更像一台计算器。过去是IaaS驱动SaaS,现在是SaaS驱动IaaS。


甲小姐:你们提出一个原创概念叫“1度算力”,讲讲这个概念?


方磊:为了让各行各业更容易地来消费一小片算力,这里面就需要精确度量——只有以精确标准度量算力,才有可能把庞大的算力基础设施变成可分割、可分配的普惠“算力包”,销售到千家万户。这是我们提出“1度算力”的初衷。


这次的AI革命不是类似互联网的模式切换,它更像电力革命,是水电煤这种底层设施。所以在具体设计上,参考1度电的定义是1千瓦时,我们提出312TFLOPS乘一小时为1度算力。312TFLOPS刚好是英伟达A100和很多国产GPU对标的数据。


甲小姐:现在有多少人认可“1度算力”的概念?


方磊:我接触的每一个人,听我介绍过后都认可这个概念。定义度量,相当于定义了消费方式。就像只有实际使用电力后,才会发生费用结算。这也是我们的理念。


当前算力租赁市场主要采用的是独占式的“裸金属”服务模式,即用户根据需求租赁一定数量的机器,并按月支付租金。这种模式可以保证资源的独占性,但并不完全适应所有用户的需求。


理想情况是,客户不需要自建算力中心,租赁服务也能够更加灵活。采用按实际使用量结算的方式也能更好地满足用户多样化的需求。就像上面提到的基础设施的规律一样,当普惠的服务、普惠的算力出现以后,才会培育更多创新业务场景,带来应用和生态的繁荣。


甲小姐:如果我是你的潜在客户,你会怎么把“算力包”卖给我?


方磊:我们构建了精细化的算力定价模型。比如该模型设定1度算力的价格为20元,当客户购买包含1万度算力的“算力包”时,支付的费用就是20万元。在该模型中,客户在使用算力资源时,系统将根据其执行的具体工作负载自动进行算力度量的核算,并相应地扣除算力。


客户可以提交多个并行计算任务,其中每个任务对算力的需求可能有所不同。例如,一个任务可能需要15张GPU卡的资源,而另一个任务需要64张GPU卡。这种灵活的算力分配机制允许系统根据任务的实际需求自动分配所需的算力资源,并在任务完成后自动释放这些资源,以便其他任务可以使用。


这种模式下,客户无需预先指定所需GPU卡的数量,便能够根据提交的任务自动进行算力的分配和计费。


甲小姐:双方的交互界面是什么?


方磊:我们的服务模式类似SaaS(软件即服务),用户可以像使用云服务一样登录平台。你可以有多个账号方便你内部管理,最后按照实时消耗结算。就像你购买手机卡的流量一样,我们起名“算力包”,就是类比流量包。


相比之下,如果用户选择租用裸金属服务,可能会面临最低租用数量和长期合同的限制。服务商可能要求至少租用5台机器,签订至少6个月的合同。假设每台机器的成本为8万元,那么5台机器的总成本将达到40万元,一次性投入240万元。即使技术团队非常专业,也存在项目失败的风险。如果6个月后项目未能达到预期目标,这笔投资可能会打水漂。


甲小姐:创业成本里最痛苦的就是试错成本。对于顶级决策者来讲,一个判断失误可能就损失上亿,如何避坑很关键。


方磊:没错,对我们的客户来说,购买“算力包”可以实现三个目标:第一,更便宜;第二,更灵活;第三,决策风险降低。


甲小姐:对整个行业来说,“算力包”产品有什么意义?


方磊:首先,对于社会而言,算力包把一个庞大的基础设施变成一种公共服务,我们不再是把算力建好以后给到单一客户,而是提供给广大中长尾客户,这可以提高社会基础设施的效率。每当我们把效率提升5%、10%,都会带来巨大的社会和经济效益。


其次,当算力包进入千行百业,其中的软件工具、行业应用、应用模板都变成高附加值,可以增加收入。


第三,降低门槛才能实现普惠。就像今天我们不需要按一小时10万人民币的价格来租一架私人飞机,只需要几千人民币买张机票就能飞到大洋彼岸,它降低了很多商业门槛。降低了算力的门槛,人们才能更容易地去做大模型的开发和应用。


甲小姐:这种做法是你们独家的吗?如果别人看懂后也来学习“算力包”模式,九章云极DataCanvas的护城河是什么?


方磊:我们根据消费来计价的做法当前在国内乃至全球范围内都非常少,可能在国内是唯一的,而且我们肯定更便宜。我们过去十年在AI基础软件上的技术积累,针对中国各行业的头部客户和在行业内抢先布局带来的纳管规模优势,这些可以保证我们处于领先。


长期来看,在持续的技术进步中不断满足客户需求的自我更新能力,才是竞争的关键。不存在静态的护城河。




3.“我们要想突破现在物理学的框架,不能指望另一位爱因斯坦,至少要指望另一位爱因斯坦+AI”

甲小姐:在AI的发展历史上,算法、数据和算力的权重持续演变。从数据科学家到算力企业家,你的权重在从数据向算力转变——你怎么看三者的关系?


方磊:我们最初的核心理念是“数据+算法=模型”,不偏重于算法,也不偏重于数据,本质上是工具平台,类似“中央厨房”概念——数据由客户供给,算法是整个产业的精华,我们的任务是将这些要素融合,创造“美味”的模型。


但面向未来,我认为算力是推动智能发展的关键因素,而数据的地位会相对减弱。


甲小姐:凯文·凯利也曾告诉我,十年以后数据不再重要。你认为数据的地位会削弱的原因是什么?


方磊:做个简单类比,儿童智力的发展通过与物理世界的互动实现,其中大约90%的信息通过视觉获得,这一过程可以被视为数据的积累。他们的眼睛和感官相当于数据收集器,不断地从物理世界中获取原始数据。算力可以理解为儿童大脑的处理能力,即理解和吸收这些数据的能力。随着时间推移,孩子们的大脑变得更加擅长处理信息。


假设一个机器人也配有摄像头和传感器,能够像儿童一样观察和感知世界,通过传感器收集信息,它有可能在相对较短的时间内——比如6个月到1年——就积累大量的知识。随着算力的显著提升,机器人能够更快、更有效地处理这些数据。这表明,智能的发展越来越依赖于它们实时感知和处理数据的能力,而不仅仅依赖于预先收集和存储的大量数据。


目前AI使用的数据里,最常用的还是互联网和人类记录的知识,人们也常常忧虑这些数据可能会耗尽。然而事实是,人类在成长过程中与物理世界的互动才是数据的最大来源


当前具身智能还处在起步阶段,之后来自物理世界的数据比例会迅速增加。我的推断是,通过与物理世界的互动,可以生成大量的数据,而这些数据的获取成本可能远低于我们通过互联网获取的数据,或者更准确地说,是低于人类经过提炼和总结的知识数据。


甲小姐:如果时光倒流回你在微软必应的工作时期,假如你知道未来会诞生一个公司叫OpenAI,将成为AGI的重要推手,而你只要留在微软,可能成为OpenAI的股东或创办者之一,你还会创业吗?


方磊:我的一些同事仍然在微软研究院工作,他们目前的工作就是主要集中在与OpenAI相关的项目上,比如为OpenAI提供基础设施支持。但我个人更倾向于创业。OpenAI可能是一家伟大的公司,但亲手打造一家即便不那么伟大、却能留下一定影响力的公司,更令我心驰神往。创业不仅是实现自己的梦想,更在于给世界留下的印记。


甲小姐:如果用三个形容词描述现在的九章云极DataCanvas,你会选择哪三个词?


方磊:我们的愿景是创造智能和探索未知。所以第一个词是创造,第二是探索,第三是热情,也就是长期坚持,满怀激情地做一些事情。


甲小姐:你最终要实现的目标是什么?


方磊:公司的终极愿景是希望成为国内或世界上规模最大的能够提供算力基础设施的企业。我个人的终极理想是我们人类对于智能的本质有一些突破,而智能的突破最终让人类洞悉宇宙的能力有突破。


这大概是一个技术人员的梦想。从广义相对论的角度来看,整个宇宙最大的bug是光速过慢。为什么光速这么慢,宇宙这么大?我相信人工智能可以帮我们想出实现超光速的方法,我说的不是量子计算,是物理上的超光速。这一点我认为仅仅靠人类的智力无法搞定。我们要想突破现在物理学的框架,可能不能指望另一位爱因斯坦,至少要指望另一位爱因斯坦+AI。


甲小姐:黄仁勋说过世界的本质靠加速计算,你和他的核心观点一致吗?


方磊:是的,我相信计算是现实的本源。这也是很多人的观点,不只是他一个人的看法。我们的目标在于无限接近对真实世界的模拟,例如在飞机风洞测试中,计算量的增加能够显著提升对物理环境的模拟精度。这种对高性能计算的需求促使人们更加倾向于相信世界的本质是计算。


甲小姐:但加速计算的投入上限在哪里我们还看不见。你会担心这场投入是个无底洞吗?


方磊:AI行业不一定按照卷的逻辑来发展。卷的意思是,从A地到B地,有人造出更快的火车,第二名也被迫制造更快的火车,只是因为第一名算得快,后面就需要跟他对齐,这是商业竞争的逻辑,不是宏观上生物进化的逻辑。商业竞争是面对面厮杀,短期内非常针锋相对(head-to-head),而生物进化可以走出差别巨大的不同路线,可能几十年、几百年后才见分晓。


目前AI行业更偏商业竞争的逻辑,但这是短期。未来AI还会打开很多空间,大家不必在一个狭小的地方卷,而是走向进化逻辑。


甲小姐:你担心人工智能加速发展会导致人类智能被甩在身后吗?


方磊:不是很担心,因为离我们还很远,如果发生也不是什么坏事。我把这些观点视为一种思维游戏。我们所讨论的这些可能性,无论其真伪,很大程度上都是基于我们当下的想象。当然这些想象会增加讨论的趣味性。人类自我进化的速度很快,不会那么脆弱,AI也会使人类本身更强大。


甲小姐:从终局回到当下,我们是否进入了算力游戏的下半场?


方磊:我个人不太喜欢下半场的这种论述,大部分人想描述下半场,一是希望有变化,二是对上半场想做总结。


每个创业公司都喜欢讲Day One精神,但提到一个行业动不动说下半场,似乎与这种精神相悖。就好比ChatGPT只发布了不到两年的时间,现在我们就讨论换挡,可能还太早。毕竟,当下一切仍处于探索阶段,我们都在前行的路上。


| 甲小姐对话系列回顾 |

甲小姐对话特伦斯:进化比你聪明

甲小姐对话凯文·凯利:关于AI,我从未写进书里的判断

甲小姐对话张钹:中国大模型的死与生

甲小姐对话田渊栋:Scaling law代表一个非常悲观的未来

甲小姐对话Pika创始人郭文景:我想做一家伟大的公司

甲小姐对话傅盛:搞AI真的不能再这么烧钱了

(文:甲子光年)

欢迎分享

发表评论