
图片来源:Sequoia Capital
Z Highlights
-
未来甚至可以直接用手机上的麦克风来创建游戏——你只需对Assistant说话,它就会自动生成整个世界,比如创建一片森林、设置敌人、添加Boss战,并且完成所有游戏机制的搭建,整个过程完全自动化。
-
Roblox社区中绝大多数创作者都同意授权我们使用他们的数据进行训练。这使得我们不仅拥有全球最大的数据集之一,而且这个数据集是高度多模态的。
-
我们现在正迈向一个完全不同的工具世代。在这个世代里,工具的成功与否不再取决于它能提供多少控制权,而是取决于它能否准确捕捉用户的创作意图。
Stef Corazza:Roblox生成式AI负责人,先前创立过Mixamo,一家在角色动画领域处于领先地位的AI公司,后被Adobe收购。本次访谈为红杉资本旗下播客对Stef的采访,旨在了解Roblox在生成式AI领域布局。
高度垂直整合的元宇宙世界Roblox
Sequoia Capital:欢迎来到Training Data。今天,我们有一位非常出色的嘉宾——Stef Corazza。他是Roblox的生成式AI负责人,Roblox是全球最大的游戏平台之一。该平台拥有7900万日活跃用户,并建立了一个庞大的创作者经济体系,每年向创作者支付数亿美元的收益。正因为如此,Roblox在利用AI改变游戏的制作和玩法方面具有得天独厚的优势。
Stef之前是一位创业者,他创立了Mixamo,这是一家在角色动画领域处于领先地位的AI公司,后来被Adobe收购。Roblox邀请他加入,希望他能在自家平台上彻底革新游戏的制作方式。在Stef的领导下,Roblox正在推动AI与游戏的结合不断突破极限。从他们的AI助手——让用户仅通过自然语言就能生成游戏,到他们的3D基础模型技术,Roblox正站在行业前沿。
Sequoia Capital:今天,我们要聊聊游戏。特别是关于Roblox的AI。Roblox是全球最大的游戏世界之一。我这里用“世界”而不是“平台”,因为“平台”这个词已经被用滥了,而Roblox创造的远不止是一个平台。Roblox是一个让你可以创造、可以游玩、可以结交新朋友的虚拟空间,而这一切都在线上完成。
我们不仅是技术专家,同时也是投资者。所以我想先花点时间聊聊Roblox在商业上的非凡成就。Roblox无疑是一项了不起的技术,我们稍后会深入探讨。但从商业角度来看,它同样令人惊叹。
Roblox目前的市值高达290亿美元,年化营收超过35亿美元。而最令人瞩目的数据是,他们真正构建了一个经济体系。这不仅仅是一家追求自身利益的公司,它还为创作者带来了实实在在的收益。过去一年间,Roblox向平台上的创作者支付了超过8亿美元。Roblox上的游戏总时长每年达700亿小时——是的,700亿小时!同时,他们还保持了可观的现金运营利润,达到了6亿美元。他们能够做到这一点,是因为他们服务着一个庞大的用户群体——7900万日活跃用户。
并且,随着时间的推移,这个用户群体的年龄结构也在上升。目前,在这7900万用户中,有4600万日活跃用户的年龄已经超过13岁。此外,还有380万用户每天活跃使用语音功能。而这一切的数据仍在持续增长,这家公司的表现令人惊叹。所以,Stef,我们今天真的非常高兴能邀请你来。在AI与游戏的交汇点上,我们再也找不到比你更合适的人选了。
从机器学习到计算机视觉,再到生物医学工程,你的技术背景令人印象深刻。从最初的生物医学领域,到如今主导生成式AI的前沿研究,你的旅程充满了传奇色彩。所以,我们想从你的故事开始。你是如何走到今天这一步的?你最初是从事一个完全不同的工程领域,是什么让你最终成为了生成式AI的负责人?
Stef Corazza:感谢你对Roblox的精彩介绍。Roblox的成功确实是复利效应的一个惊人案例。即便是我们自己,每天都还在不断被它的发展所震撼。
我的旅程可以追溯到大约20年前,那时我从意大利来到斯坦福大学,作为交换生学习。我当时的研究方向是计算机视觉和机器学习,专注于人体运动的测量。在这个领域,基本上有两个主要市场:一个是你刚刚提到的生物医学领域,另一个则是动画领域。而我们的研究正处于这两个领域的交界点。
在某个时刻,我意识到动画领域蕴藏着更大的机遇。因此,我开始专注于基于视频的动作捕捉和动画制作解决方案,并最终在2008年创立了Mixamo。这家公司在2015年被Adobe收购。直到今天,Mixamo仍然是行业内使用最广泛的机器学习服务之一,专门用于角色的绑定和动画制作。
在Adobe的几年时光实际上是七年,我帮助构建了公司的3D产品线,其中包括我的团队开发的产品,比如Adobe Stager,以及用于增强现实(AR)的Adobe Aero。此外,我们还收购了Algorithmic,并最终完善了Adobe的3D产品组合。
之后,我对生成式AI产生了极大的兴趣。我当时和Adobe的CTO合作,希望探索全新的内容生成方式。就在那时,Roblox联系了我。我们深入交流了这个话题。我逐渐意识到,生成式AI真正的潜力可能会在游戏领域,尤其是在Roblox这样的平台上得以释放。Roblox每天都有大量的数据流动,每年有超过1500万个游戏体验被创造和游玩。我发现,Roblox正是这样一个地方,它可以让生成式AI的潜力真正绽放,并在全球范围内产生深远的影响。
Sequoia Capital:在我们深入探讨AI的部分之前,你能先给我们介绍一下Roblox这个平台吗?你本身是工程师出身,我想对你来说,规模化一定是一个令人兴奋的话题。而Roblox的规模确实令人难以置信。当然,像Facebook这样的平台可能在日活跃用户方面更庞大,或者某些平台的月活跃用户更多。但很少有平台能在一个地方同时承载如此巨大的带宽、计算能力和图形处理能力。这个平台每天有1500万个游戏会话,月活跃用户达到7900万,这些数据在技术层面意味着什么?
Stef Corazza:是的,我们经常提到日活跃用户数,你刚刚提到的7900万。但其实,我们不太对外公布月活跃用户的数据,因为它的规模更加惊人,已经达到了数亿级别。这是一个庞大、健康且增长迅猛的社区。
很多人会问我们,玩家游玩的这些游戏究竟是从哪里来的?现在,一些游戏已经成为全球性的IP,拥有数千万的同时在线玩家。为了让大家更直观地感受Roblox的规模,我经常分享这样一个数字:每天大约有9万个新的游戏和体验在Roblox上发布。这展现了惊人的人类创造力,同时也说明Roblox正越来越成为一个创作与游戏开发的平台,其创作规模之大令人难以置信。
此外,Roblox还是一个完整的经济体系。正如你提到的,我们过去一年向创作者支付了8亿美元。这不仅仅是一个游戏平台,更是一个造就就业机会的平台。人们在这里工作、购买房产,甚至创建自己的公司。目前,Roblox上已经出现了一些超过100人的游戏工作室,其中有些甚至获得了风投资金。这意味着Roblox正在构建一个独立的创作经济,而这种模式的潜力是巨大的。
Roblox的独特性还体现在它是世界上垂直整合程度最高的公司之一。首先,我们拥有自己的数据中心,在全球设有多个数据中心,并且完全控制硬件。其次,我们不仅提供游戏平台,还拥有自己的应用程序,负责分发游戏,并提供所有相关的服务,比如视频聊天、实时聊天、聊天翻译等。再者,我们拥有自己的创作工具——Roblox Studio,这正是我和我的团队负责的领域。除此之外,我们还提供一整套创作相关的服务,从最底层的CPU、GPU集群,到最终的游戏开发工具,一应俱全。
而且,我们的收入模式也与众不同。我们只有在创作者赚钱时才会抽取分成。换句话说,我们的盈利模式是建立在创作者成功的基础上的。Roblox不收取任何前期费用。进入平台是免费的,使用开发工具也是免费的,许多相关服务同样免费。无论你的游戏有一个用户还是百万级用户,你都不需要担心扩展问题。我们会自动为你扩展计算资源,包括CPU、GPU实例、云存储等,而你作为创作者无需操心这些技术层面的事情。
这种高度的垂直整合也使我们能够大力支持AI的发展。我们是少数能够为游戏开发提供完整AI助手的公司之一。这包括代码生成、材质创建、纹理制作、资源生成等全方位的AI支持,并且对所有创作者完全免费。
Roblox游戏开发AI助手:编写代码、整合文档、生成资源
Sequoia Capital:我很想深入探讨这个话题。你能带我们了解一下,今天在Roblox上创建游戏的体验是什么样的吗?比如,你们平台上的典型创作者是什么样的人?他们是高中生?还是专业的游戏开发者?他们通常会创作哪些类型的游戏?
Stef Corazza:目前,每个月在我们的平台上都有数百万创作者,数量相当庞大。创作者的平均年龄大约在二十多岁,比玩家群体的年龄层稍高一些。通常来说,大多数创作者专注于“世界构建”,也就是搭建环境、创造内容。他们往往是艺术家、设计师,或者游戏开发者。此外,大约30%到40%的创作者会进行编程。当然,这两类人群之间是有重叠的。但从整体上看,创作内容非常多样,从自然灾害模拟到教育类体验,从传统的游戏玩法到线上活动、音乐会,甚至时尚设计。每天都会有全新的体验在Roblox上诞生,这一点非常令人着迷。
Sequoia Capital:那你最喜欢的游戏是什么?
Stef Corazza:最近我玩得比较多的是 Driving Empire,我真的很喜欢这类游戏,所以这是一个我个人比较喜欢的作品。
Sequoia Capital:其实,我很惊讶你刚刚提到,大约30%到40%的开发者会在搭建关卡之外真正编写代码。为什么会这样?这是否也与你们开发的AI助手有关?
Stef Corazza:是的,编写代码本身是一项较难掌握的技能,需要一定的学习门槛。很多创作者都是从玩家转变而来的,他们想要创造自己的内容,于是最直观的方式就是先从世界构建开始,而不是直接学习编程。编写代码需要理解高级概念,并将其应用到交互逻辑中。这正是我们开发AI助手的初衷之一,我们希望降低编程门槛,让创作者不需要学习编程语言也能轻松实现游戏中的交互功能。
这也是为什么Code Assist成为了我们最早推出的功能之一。这个功能在2023年3月上线——虽然现在看起来像是很久以前的事情——而到今天,一年半过去了,我们的AI助手已经发展成一个完整的游戏开发辅助系统。它可以:编写代码、自动补全代码、解释代码、调试代码,以及直接将脚本应用到游戏场景中的组件或物体上。
除此之外,我们还整合了文档支持功能。以前,开发者如果想查找“如何实现某个功能”,通常需要浏览论坛、翻阅各种文档。而现在,Assistant可以直接为他们总结这些信息,提高开发效率。
第三个重要方面是资源生成。我们推出了材质生成器和纹理生成器,后者更为复杂,它允许用户仅通过文本描述,就能为任何3D物体生成高质量、高清晰度的纹理。
这些功能统称为Assistant,它使得用户仅凭自然语言输入,就能从零开始创建一款简单的游戏。未来,我们会支持更多的多模态输入,比如图像。目前,一些用户已经开始尝试仅靠Assistant创建游戏,作为一种测试体验。你可以想象,未来甚至可以直接用手机上的麦克风来创建游戏——你只需对Assistant说话,它就会自动生成整个世界,比如创建一片森林、设置敌人、添加Boss战,并且完成所有游戏机制的搭建,整个过程完全自动化。
Sequoia Capital:如果让你对游戏进行评分,满分是10分,你会如何评价由开发者通过编码创建的游戏和目前使用AI Assistant创建的游戏?
Stef Corazza:如果你会编写代码,那当然可以实现更复杂的玩法,添加各种细节,使游戏变得更有趣。因此,目前AI生成的游戏还远远达不到手工编码游戏的复杂度。现在,我们在Game Jams中会使用Assistant,在大约两个小时的时间里尝试制作一款游戏。最终的成品通常看起来还算不错,算是“可行的”游戏体验。但在更广泛的创作社区里,我相信他们会将Assistant的能力推向更高的层次。我们的目标并不是让创作者完全依赖Assistant,而是希望它成为一种学习工具,让用户在使用的过程中提升自己的开发技能。
比如,在开发初期,Assistant可以帮你编写第一段脚本,并将其附加到游戏对象上。这时你会了解到脚本应该放在哪个位置。接着,你可能会学习如何让一个平台上下移动,逐步理解代码的逻辑。因此,我们把Assistant看作是一个“开发伙伴”,它通过实践向用户展示如何制作游戏,而随着时间的推移,用户能够掌握那些原本较难习得的开发技能。
Sequoia Capital:你是否会觉得Assistant改变了开发者的创作方式?我指的不仅是代码或文档支持,Assistant现在还能生成图像。在技术方面我们稍后会详细讨论,但从用户体验的角度来看,它已经涵盖了语言、代码和图像生成。你有没有观察到开发者的行为发生了变化?比如,使用Assistant后,实际编写代码的人数是否有所增加?从外部来看,我的直觉是代码的学习门槛降低了,可能会有更多人尝试编程。但这是否意味着编程的用户比例保持不变,只是整体开发者数量增加了?
Stef Corazza:我们对比了使用Assistant的开发者和未使用Assistant的开发者,并测量了他们的生产力。结果发现,使用Assistant的开发者编写的代码量增加了180%。使用Assistant后,开发者的个人生产力显著提升。我们对有编程经验的用户进行了两个不同的用户群测试。其中一个群体使用了Assistant和Code Assist,Code Assist是代码建议工具,而Assistant可以从零开始生成代码,但两者的使用流程是相互整合的。
另外,我们也对比了使用Material Generator的人和未使用该工具的创作者。结果发现,使用Material Generator的开发者创建的材质数量比未使用者多60%。
此外,我们还观察了游戏发布量,这是最终衡量创作成果的关键指标。数据显示,使用Assistant的开发者游戏发布率提高了30%。也就是说,他们的游戏产出比未使用Assistant的用户高30%。
要注意的是,目前Assistant仍处于测试阶段,但很快就会正式推出。我现在不能透露具体日期,但已经进入最终阶段,正式发布后,Assistant的普及率和影响力都会进一步扩大。
Sequoia Capital:最后还有一个关于质量的问题——游戏的使用情况如何?你们已经看到Assistant帮助提升了游戏发布量30%,你们有没有KPI能够衡量Assistant生成的游戏表现,比如玩家在这些游戏上花费的时间、他们使用的金额等等?这些数据是否也有30%的提升?
Stef Corazza:这是个很好的问题。目前,我们最关注的KPI是用户留存率。我们发现,Assistant的周留存率比我们以往推出的任何功能都要高。而且,从长期来看,用户的留存率仍在持续增长。
对于使用Assistant的开发者,我们看到整体Studio的留存率显著提升,Assistant本身的留存率也在稳步上升。值得注意的是,这一增长完全是自然增长,因为我们没有为Assistant做任何市场推广。它是免费提供的,而免费往往是最好的推广方式。
当然,尽管它对用户是免费的,实际上它的运行成本并不低。Roblox在这方面投入了大量资源,非常慷慨。但我们与社区建立了独特的合作模式,我们告诉创作者:“如果你允许我们使用你的数据来训练AI,我们会为你打造最强大的AI助手,并免费提供给你。”
我们并不是利用创作者的数据来盈利,而是帮助他们创造更多内容。结果是,Roblox社区中绝大多数创作者都同意授权我们使用他们的数据进行训练。这使得我们不仅拥有全球最大的数据集之一,而且这个数据集是高度多模态的,涵盖了代码、图片、3D资产、音频和视频等多种数据类型。此外,游戏中的交互数据也是其中的重要部分,使我们的数据更具价值。
当然,我们非常重视数据的安全性,采取了严格的隐私保护措施,以确保数据的安全和合规性。但与此同时,我们也能够真正释放这些数据的价值。
归根结底,我们正在做的事情就是教AI如何开发游戏。我们不是单纯地训练它如何生成一张图片,或写一段代码,而是教它如何完整地开发一款游戏。在早期阶段,AI的功能可能是分散的,比如“生成材质”、“创建纹理”或“编写代码”。但我们已经开始整合这些工具,使AI具备更完整的游戏开发能力。这些工具最终不会只是独立的功能,而是逐渐演变成一个完整的游戏开发系统。
Sequoia Capital:我非常喜欢“AI学习如何开发游戏”这个愿景。那么,如果我们把游戏开发拆解成不同的部分,你认为在短期内,哪些部分最有可能被AI接管?而哪些部分仍然是人类在较长时间内无法被替代的?
Stef Corazza:这是个很好的问题。但首先我要强调,我们并不认为AI会“接管”游戏开发。在几周前的Roblox开发者大会(RDC)上,我们用过一个比喻:“AI就像你的洗碗机。”没有人喜欢洗碗,所以我们要让AI来做那些琐碎、重复的工作。
我们最近推出的Assistant功能,就专注于那些开发者不愿意做的任务。举个例子,假设你开发了一款开放世界游戏,其中有一片10万棵树的森林。现在,你希望这片森林的树叶能随着季节变化,比如秋天时变成黄色。如果手动实现这个效果,那将是一项巨大的工程。而现在,Assistant可以用三行文本完成这个任务:“选择所有树木。”;“排除松树。”;“将叶子变成黄色。”。Assistant 会自动选中57,000棵非松树,然后在几秒钟内修改它们的颜色。
这种功能的价值非常大,而且在所有AI功能中,这是社区最喜欢的一项。在过去两年里,Roblox Studio发布了许多AI功能,但这一项得到了最高的评分和用户反馈。原因很简单:它解决了开发者的痛点,这就是那个“洗碗机”。AI的目标不是取代人的创造力,而是帮助开发者完成他们不想做的繁琐任务。
Sequoia Capital:Roblox对社区的关注让我印象深刻,尤其是你们对教学的重视。在过去几分钟的对话里,你多次提到如何帮助创作者学习编程、如何教他们开发游戏、如何提升整个社区的能力。坦率地说,这一点真的渗透到了公司的核心。我之前曾跟随我的好友Craig Sherman 参加过2017年和2018年的Roblox董事会会议。即使是在闭门会议里,Roblox的焦点始终是社区。你们讨论的核心不是单纯的商业化和盈利,而是如何提升社区、如何帮助创作者学习、如何让每个人都能从Roblox的生态中受益。
另外,刚才提到的功能太令人印象深刻了。你们是如何实现的?听起来像是一种“对任何事物进行分割”的算法。这是一种分割方法,还是特定的功能?
Stef Corazza:基本上,我们找到了一种方式来提供辅助。基于大语言模型的辅助系统在代码生成方面非常出色。有些代码不需要在运行时执行,而是可以直接在Studio中执行。Studio里有一个命令栏,你可以直接在其中执行这些代码。因此,辅助操作的本质就是创建能够直接在Studio中执行的代码。而且,由于我们已经将其集成到Studio中,它可以完全感知你的场景数据模型。它知道“这是一棵树”、“这是辆车”,它了解你所做的一切,并且对整个场景有全面的认知。因此,我们结合了代码生成能力、使用Lua命令在Studio中创建内容的能力,以及对数据模型的认知能力。这三者结合在一起,基本上释放了LLM在数据模型操作方面的潜力。
Sequoia Capital:那么,你们是事先给这些对象贴了标签,还是系统可以动态地识别出“这是一辆车”?
Stef Corazza:其中有相当一部分是通过推理自动完成的。
未来游戏创作趋势
Sequoia Capital:那么你如何想象未来10年的创作体验会如何发展?你认为辅助系统会如何演进?
Stef Corazza:我们大约在两年前见面时就讨论过AI对创作的影响以及应该从哪里入手。我们当时预测,整个行业不仅仅是Roblox,而是整个行业都会经历一个范式转变。这个转变的核心是从对创作的精细控制向“捕捉意图”转变。
我曾在Photoshop领域工作了相当长一段时间,在那里,你可以精确控制图像中每一个像素的颜色,尽管大多数人并不需要这种级别的控制,但仍然有些人会使用。因此,这类工具的核心理念是100%的控制,以及非破坏性的工作流程,确保你对最终作品拥有绝对掌控权。
然而,我们现在正迈向一个完全不同的工具世代。在这个世代里,工具的成功与否不再取决于它能提供多少控制权,而是取决于它能否准确捕捉用户的创作意图。在过去30年里,我们看到的所有数字化工具,其核心逻辑都是为用户提供更多的控制选项,让用户自己决定如何使用这些选项。
但现在,我们正在从“控制”转向“意图捕捉”,这将带来巨大变革。未来可能会有成千上万家创业公司尝试用不同方式实现这一点,同时会涌现出全新的用户体验范式。例如,我们可能会看到音频输入的使用,或更高级的手势交互,不仅仅是手部动作,还包括鼠标和键盘操作。这些都将成为表达创作意图的输入方式。
我们已经在看到多模态输入的发展趋势。例如,如果我想描述一个世界,我可以通过文字输入,同时提供一张概念艺术图,甚至在其上进行简单的草图绘制。这与过去那种极度精细化的手动控制方式截然不同,但它的创作速度却快了两个数量级。
在这一切变革之中,挑战在于如何平衡两类创作者的需求。对于那些只是偶尔创作、时间有限的用户来说,AI所提供的结果已经足够好了,比如用于分享到TikTok,或者在Roblox上创建一个体验并邀请朋友加入。但对于那些想要投入大量时间精雕细琢的创作者来说,我们仍然需要提供足够的精细控制能力。
所以,真正的挑战在于,如何打造一个工具,使其既能够精准捕捉用户最初的创作意图,同时又能为专业用户提供与传统工具同等水平的精细控制。这是目前我们在Studio中面临的挑战,而许多其他公司也都在面对类似的问题。
Sequoia Capital:我们曾有一期节目采访了一个叫Dust的团队。他们的创始人之一Gabriel Hubert谈到了光栅化(rasterization)与矢量化(vectorization)的问题。这应该正是你的领域,因为你是图形专家。他们团队中的成员也大多是斯坦福计算机视觉方向的专家。这场转变似乎正在发生,而矢量化——从某种程度上来说,正是你所描述的那种方式:你可以基于意图扩展它,使其变得更加庞大,同时也可以缩小至极小的细节层级,甚至像分形(fractals)一样不断深入到更精细的层次。你认为我们什么时候能够实现这一目标?你觉得什么时候能达到这样的程度——我们可以说“这是初步的尝试”,然后再深入到像分形一样的细节层级,基于意图对每个像素进行调整?
Stef Corazza:我们现在的目标是让助手首先具备执行这些操作的能力。同样的AI,不仅仅能提供类似拉老虎机的那种输入方式——就像把一些文本转换成图像,拉下拉杆,看会生成什么——我们还希望它能够进行更精细的修改。比如,我们希望助手能够执行这样的任务:“把所有超过五英尺的树的颜色改变一下。”或者:“能不能把这棵树的纹理打开,让我直接在上面涂画?”我们希望AI能够超越“一次性生成”的模式,支持迭代修改。我们认为迭代是人们进行创作的基本方式,因此我们希望AI从一开始就能支持这种工作流程。
当然,我们仍然会提供一些备选工具,可能会采用“渐进式展示”的方式,不会把所有选项都直接摆在用户面前,而是只有那些想要深入探索的用户才能解锁更高级的功能。在某些情况下,我们甚至会让其他工具介入。毕竟,有些事情只能用Blender、Photoshop或Substance Painter来完成。我们的Studio不会变成一个功能极端庞杂、但什么都做不好的地方。相反,我们致力于让Studio在自己擅长的领域做到最好,而对于专业用户,我们也希望能提供与外部工具的良好兼容性。
我们经常谈论Studio,但实际上最让我们兴奋的,是如何把这些AI能力带入“体验内创作”(in-experience creation)领域。我们认为,这才是下一个真正的前沿方向。整个行业目前还处于非常早期的阶段,我们也不知道最终会如何发展,但我们对此充满好奇。
像Ego.live这样的公司正在尝试用AI打造全新的用法,而我们希望利用AI释放的创作能力,让玩家可以在游戏内直接进行创作。比如,我正在Roblox里玩游戏,突然我想修改这个关卡,或者和朋友们一起创建一个新的游戏内容,让我们可以共同游玩。这是一种完全不同的创作体验,而AI将会彻底释放这种可能性。
现在,我们正在Studio里孵化这些功能,确保它们足够稳固、输出质量足够高。但我们更期待的是,把这些AI能力开放为API,带入即时创作领域——我们认为这才是真正会产生重大影响的地方。
Sequoia Capital:我很想深入探讨这一点。也许我们可以先从游戏玩法的角度切入。你认为从玩家的角度来看,这些游戏未来会有哪些不同?
Stef Corazza:我认为,即使开发者几乎不需要额外投入精力,游戏仍然可以变得更加个性化,并且始终保持新鲜感。比如,如果你玩的是同一款游戏,但背后有一个LLM,它可以记住你的游戏历史——所有你在过去游戏过程中做过的事情——那么当你再次进入游戏时,它就能动态调整,让游戏变得不一样,更有趣。它可以改变挑战难度,调整剧情发展,使游戏体验更加个性化。
当AI变得足够智能,能够跟踪玩家的游戏历史,并对其有深入理解时,游戏就可以真正变成一个为你量身定制的、更加沉浸的体验。这将是一个巨大的机会。目前,许多公司都在进行相关实验,而我们最兴奋的,是能够提供AI作为平台,让他们探索各种不同的游戏玩法。
Sequoia Capital:这听起来在技术上非常困难。我记得,即使是最简单的Roblox游戏——其实根本没有“简单”的Roblox游戏——本质上都是在不断生成数字世界,这其实是一个非常庞大的工作量。你之前提到过,你们有自己的数据中心,确保低延迟,让全球玩家可以流畅联机。那么,在这样的基础上,你如何看待再增加一个复杂层级,比如AI推理在游戏玩法中的应用?像是实时生成世界,并随时对其进行变化,这对基础设施而言意味着什么?会有哪些必须改变的地方?
Stef Corazza:我认为实现这个目标的第一步将是NPC,也就是非玩家角色连接到LLM。这其实不会对基础设施带来巨大的变化,相对来说是一个比较直接的步骤。我认为这将是AI在游戏中应用的第一个阶段,我们会看看它带来的影响。
然后,我们确实看到了一些希望用AI来生成完整世界的尝试。当然,这其中存在许多挑战。而我认为最大的挑战其实是内容审核(moderation)。Roblox的安全性是我们的第一要务,我们希望保持平台的安全性,并鼓励玩家之间的文明交流。当你让玩家可以创建任何内容时,审核的门槛就会提高。我们在打开这个“潘多拉魔盒”的同时,也必须建立完善的防护措施,以确保平台上的互动始终是积极的、健康的,让所有用户都能有良好的体验。
所以,我认为这方面的挑战远远大于基础设施层面的延迟问题。因为从技术角度来说,我们可以找到解决方案,比如进行内容缓存、预生成部分数据,或者利用不同级别的细节渲染(Level of Detail, LOD)。游戏行业已经开发了许多技术来优化数据流,比如流式传输(streaming),而我们在Roblox平台上也在使用这类技术。这样,我们可以实时生成并流式加载更多的游戏资源。
真正的挑战在于,如果你让玩家能够自由地掌控他们正在玩的游戏,那如何确保其他玩家也能拥有良好的体验?这个问题不仅涉及内容审核,也涉及如何让游戏本身保持有趣。我们对游戏开发者充满敬意,因为他们知道如何让游戏变得有趣。而并不是每一位玩家都具备这种能力,毕竟游戏设计经验的积累可能需要20年。我们的难题是,如何在赋予玩家自由创造权的同时,确保游戏的核心玩法和叙事仍然足够吸引人。
说到底,这些都是我们希望从社区中学习的事情。而这也是作为一个平台的美妙之处——我们不需要自己去解决所有问题,我们只需要提供API,让社区去探索、创新。Roblox的社区拥有无限的创造力,他们最终会找到最合适的解决方案。
Sequoia Capital:我听过很多关于NPC作为游戏AI发展的第一步的讨论。那么你认为下一个关键的进展会是什么?
Stef Corazza:目前,我看到的一个趋势是,将AI创作限制在特定的游戏元素上,而不是整个游戏世界。比如,在Roblox上有一款非常受欢迎的游戏,叫Build a Boat。玩家进入游戏后,需要建造一艘船,然后出售它,接着与其他玩家竞速。但在这个游戏中,世界本身是由开发者预先定义的,玩家并不会改变整个游戏世界,而是可以在某些受限的范围内进行创作。
比如,游戏会提供一套限定的材料,你只能用这些材料来建造船只,并且尺寸也有一定的限制。但在这些框架内,玩家可以尽情发挥,创造各种各样的船型。而由于Roblox是一个物理引擎沙盒,它支持空气动力学和流体力学,因此,玩家的创作实际上会受到风力等物理因素的影响,最终看到自己设计的船是如何在环境中表现的。
目前,这类游戏的制作难度较大,但AI可以大大提升这类玩法的体验。比如,玩家可以用AI创建自己的赛车、船只或者飞机,并且游戏可以根据他们的创作结果,给予他们在游戏中的优势。然而,这种变化是有限制的,它不会彻底颠覆整个游戏,而是只在某些特定元素上增强玩家的创造能力。
Sequoia Capital:受限的创造力(Constrained creativity),这个思路很棒。我有两个后续问题。第一个是,你刚刚提到了物理引擎。近年来,围绕物理神经网络(PINNs)和各种神经物理引擎的讨论一直很热烈。那么,Roblox的物理引擎目前是否已经使用了这类技术?如果可以透露的话,你们是否在物理引擎中使用了神经网络?比如,你刚才提到了空气动力学——你们是否已经开始用神经网络来求解纳维-斯托克斯方程(Navier-Stokes equations),因为它现在变得足够廉价,可以通过神经网络计算?还是说这仍然是未来的事情?
第二个问题是关于NPC。你们是否会允许某个世界或游戏完全由NPC构成?换句话说,玩家只是观看,而不是参与?
Stef Corazza:关于物理引擎,目前使用神经网络来计算物理效果的有效性并没有被完全证明。实际上,已经有大量经过验证的现实世界近似方法,它们计算效率极高,而计算效率比对现实的精准模拟更重要。因此,就目前而言,我不确定神经网络在物理计算方面能带来多少真正的价值。尤其是在一个完全数字化的世界里,如果你已经实现了所有基础物理功能,并且用户可以成功地使用它们,那么引入神经网络可能并不会带来太大的优势。
Sequoia Capital:特别是像Roblox这样的环境,它是一个封闭的、可控的数字世界,而不像现实世界那样充满噪声和不确定性,对吧?
Stef Corazza:是的,没错。所以目前我认为,神经网络在物理计算中的作用还没有完全被验证。或许未来会有进展,但现在还不是主要方向。
至于NPC,如果你设想一个游戏,其中所有玩家都是NPC,而你只是观看,那听起来就像是一种新的电视节目,对吧?我们每天都在观看这样的内容。而且,这些NPC可以变得非常智能,它们可以比赛、可以执行各种有趣的任务,纯粹作为观赏性的娱乐内容。现在已经有大量的玩家喜欢观看别人玩游戏,所以未来这些“玩家”完全可以由LLMs驱动的NPC来替代,它们依然可以创造有趣的娱乐体验。因此,我不会排除这种可能性。
不过,我认为最初的模式可能会是混合型的。比如,在传统的游戏环境中,我们可以通过注入NPC来丰富游戏体验,或者填充那些刚刚上线、还没有足够玩家的游戏世界。这样,即使一款新游戏没有成千上万的同时在线玩家,也可以通过智能NPC创造一个热闹、充满互动的世界。这方面确实有很大的潜力。
生成式AI在UGC内容中的应用
Sequoia Capital:对于用户生成内容(UGC)呢?你认为,随着生成式AI被进一步融入游戏体验,UGC会发生怎样的变化?
Stef Corazza:我们其实已经在一些生成式AI功能上做了探索,比如用于Avatar(虚拟形象)创建的GenAI功能。虚拟形象的创造是Roblox生态中一个非常庞大的创作领域。平台上有大量的创作者在设计Avatar的服装、配件和外观,许多人甚至以此为生。但与此同时,我们也发现,很多有创意的用户,并不具备3D建模的能力。例如,他们可能不会使用Blender或Maya这样的专业工具,但他们对于想要创造的服饰却有非常清晰的构想。于是,我们尝试引入AI,让用户可以通过输入文本或提供参考图片来生成虚拟形象。事实证明,这极大地降低了创作门槛,让更多人能够参与其中。
目前,我们已经推出了Avatar自动设置功能的早期测试版,未来几个月内我们会在这一领域投入更多资源,带来更多新的功能。我们的目标是让用户能够轻松创建Avatar、服饰和配件,通过多模态输入(文本、图片等)来降低创作门槛。
因为,现实情况是,总会有更多的人拥有绝妙的创意,而真正能执行这些创意的人却相对较少。我们的目标就是消除这种障碍,让AI成为用户表达创意的一种工具。
Sequoia Capital:你觉得生成式AI是否会模糊“用户”和“创作者”之间的界限?在现在的定义里,这两者还是不同的概念,对吧?但未来会不会变成同一个?
Stef Corazza:毫无疑问,它一定会模糊这种界限。想想音乐领域的变化。一开始,作曲家、演奏者和听众之间的界限是非常清晰的。但后来,卡拉OK的出现彻底模糊了这一界限,而如今,任何人都可以在GarageBand里创作音乐,甚至只需要输入歌词和曲风,AI就能生成完整的歌曲。在音乐和音频创作领域,这种界限已经彻底消失了。
在游戏开发领域,这一变化可能会需要更长的时间,因为游戏本质上更加复杂。但从趋势来看,熵只会不断增加,而界限只会变得越来越模糊。因此,我认为,这种转变一定会发生,只是时间问题。
Sequoia Capital:你刚才提到你们拥有海量数据,包括大量的视频数据。我认为Roblox仍然是全球领先的VR应用,远远领先于其他产品,无论是在VR头显上,还是在PC、各种移动设备等平台上。此外,你们还拥有大量的音频数据、文本数据,几乎涵盖了所有类型的数据。面对如此庞大的训练数据,你们是否计划构建一个“世界模型”?如果是的话,这个世界模型会是什么样子?它的边界在哪里?接下来,你们又会如何推进?
Stef Corazza:是的,我们确实拥有海量数据。但对我们来说,挑战不在于数据的收集,而是如何有效地利用这些数据。因为从原始数据到能够用于训练LLM或AI系统的有效数据,这其中涉及大量的处理工作。这也是我们当前的主要工作方向。
就在几周前,我们宣布Roblox正在研发一个3D基础模型,我们的目标是将其开源。这个模型的作用是,通过多模态输入,实现对场景和世界的数字化合成。这就是我们的目标。
但我认为,我们可以在此基础上更进一步。就像我之前提到的,我们的最终目标是教会AI如何进行游戏开发。不仅仅是创建游戏世界——虽然这可能是我们首先会攻克的方向,但接下来,我们还希望AI能够理解世界的交互性,比如如何让物体移动、弯曲,如何让门打开,如何让角色在其中奔跑,甚至如何设计完整的游戏玩法。
此外,我们可以通过数据分析来识别哪些游戏内容更受欢迎,哪些关卡更受玩家喜爱。未来,我们不仅能够生成游戏,还可以确保AI生成的游戏是有趣的,而不是随机拼凑出来的。AI可以基于游戏数据分析,推测出哪些设计元素能吸引更多玩家,哪些游戏机制能够提升玩家的参与度。
当然,这需要大量的无监督学习。我们需要找到方法,从创作者的行为中提取信号,并利用这些信号来自动分类,以便让AI学会从哪些数据中进行学习。这将是一个漫长的过程,但我们拥有足够的数据来支持这一研究。
Sequoia Capital:由于你们有自己的物理引擎,我想这给了你们在物体放置、物体交互等方面巨大的竞争优势。目前,很多视频训练模型的核心问题在于,它们是2D的,无法真正理解3D物体之间的相互作用。虽然可以通过某些技术推断出三维结构,但仍然不够精准。那么,你们是否会依赖这一优势?这对你们的3D模型来说是不是一个巨大助力?
Stef Corazza:是的,这确实是一个巨大的优势,尤其是在保持时间和空间上的一致性(spatial and temporal coherence)方面。如果你拥有完整的3D模型,并且可以精确地重建整个3D场景,那么在时间维度上,你可以确保所有物体的一致性,而不需要依赖2D推断。例如,在视频风格化的案例中,如果你只是进行视频到视频的转换,很容易出现偏移和视觉伪影。
最近,ControlNet和深度图(depth map)等2.5D技术在一定程度上提高了视频转换的一致性,但它仍然不够完美。例如,如果你风格化了一张角色的正面图像,然后这个角色转身再回头,最终的视觉效果可能会发生变化,变成“另一个人”。
我认为,唯一的解决方案就是使用3D数据进行训练。目前,整个行业在2D方向已经取得了惊人的进展,并且正在利用2D数据创造出非常神奇的效果。但是,仍然需要探索如何将2D信息更好地整合进3D算法,从而真正实现时间和空间上的一致性。
Sequoia Capital:所以,你的意思是,2D技术最终会走进死胡同,必须重新从3D开始?还是说,你认为2D通过规模化仍然能取得突破?
Stef Corazza:如果目标只是处理单张图片,那么2D已经做得非常出色了。例如,纹理贴图、风格化处理等方面,2D表现得非常好。但如果目标是处理视频——也就是涉及时间轴,并且摄像机还在移动,比如你需要处理连续2000帧画面,那么如果不使用3D数据,就会面临巨大的劣势。你会遇到严重的漂移问题,即使有多种方式可以部分修正,但核心问题仍然存在。
2D的核心问题在于遮挡——比如,如果我一开始站着,而我的手臂藏在背后,然后突然伸出来,AI无法保证手臂的视觉一致性,因为它从未见过这部分内容。而如果使用3D数据,这个问题就会迎刃而解,因为即使摄像机没有拍摄到某些角度的信息,3D数据仍然可以提供完整的视角。
所以,行业已经在2D方向取得了巨大的突破,试图尽量弥补数据缺失的问题。但如果我们能够真正利用3D数据,那么最终的结果一定会更加稳定、更加一致。
Sequoia Capital:在我们为这期节目做准备时,我们了解到你对神经渲染(neural rendering)非常感兴趣。你能跟我们聊聊这个话题吗?
Stef Corazza:我非常相信神经渲染将彻底改变游戏的视觉风格,让游戏变得更加美观和生动。回顾游戏开发的历史,游戏的视觉风格一直与资产的创建方式紧密绑定。如果你制作《超级马里奥》,它就会有特定的像素风格,而你不能随意把它变成《使命召唤》的视觉风格——因为那样你需要重新制作所有资源。
但是,如果使用神经渲染或生成式渲染技术,我们可以仅通过文本描述或参考图像,在实时渲染过程中改变游戏的视觉风格。而游戏的几何结构仍然保持不变,所有的物理特性仍然一致,只是视觉外观发生改变。这意味着,即使你的游戏资产是低分辨率的,或者纹理质量较低,你仍然可以在最终渲染阶段,通过AI技术,让游戏达到照片级真实感,或者变成任何你想要的风格。这项技术不仅可以让游戏看起来更加精美,也能让开发者实时调整游戏的艺术风格,而无需重新创建所有资源。甚至可以用它来优化帧后处理(post-processing),就像目前游戏里使用的光晕特效一样。
目前,这仍然是一个计算密集型的过程,但考虑到近年来的技术进步,我相信在未来五年内,这将成为游戏开发的标准方式,并且可以运行在高端手机上。我们对此感到非常兴奋!
Sequoia Capital:你认为未来玩家是否可以自行决定游戏的渲染风格?比如,我可以在任何游戏中应用自己喜欢的“皮肤”或视觉风格?
Stef Corazza:如果游戏开发者愿意给予玩家这种自由,当然可以!这会成为一种艺术选择——开发者可以允许玩家自由定义游戏的视觉风格,而所有游戏的物理、玩法和逻辑仍然保持一致。这意味着,你和你的朋友可以玩同一款游戏,但每个人看到的视觉风格可能完全不同。
Sequoia Capital:Stefano,今天非常感谢你的分享!我们学到了很多,不仅是关于Roblox的技术架构,也了解了它的庞大影响力,数亿的月活用户,以及支撑这一切所需的深厚技术能力。期待未来看到Roblox带来的更多创新!
原视频:Roblox Studio Head Stef Corazza: Using AI to Empower Creators
https://www.youtube.com/watch?v=xMrBgC-bKUU&ab_channel=SequoiaCapital
编译:Yvonne
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)