允中 发自 凹非寺
量子位 | 公众号 QbitAI
“3D大模型终于可以生成锐利的边角了!”
“在钻研了一阵3D人工智能后,我总算通过Hyper3D.ai用上了Rodin1.5,它真的可能改变游戏规则。”
2024年的最后一天,随着3D生成工具Rodin Gen-1.5的上线,在网络上掀起了新一波对于3D生成讨论的热潮。
用Rodin背后的研发团队——影眸科技CTO张启煊的话说:
这是3D大模型第一次能生成如此锐利的边缘——我愿称之为“圆滑当道时代的锐利异类”——对于CAD类工业模型与硬表面模型,它有绝对的优势,扩大了3D生成的使用群体。
由于Rodin的这次更新恰逢年末,海外很多用户都在放假,但这也并没有阻挡用户们对测试这个新模型的热情:
不论是《双城之战》中的海克斯拳套——
或者是细节更多的赛博朋克靴子——
对于这些结构鲜明的模型,Rodin Gen-1.5都是信手拈来。
甚至有动画师把Rodin生成的资产直接运用在了动画制作中(以下视频中的3D资产有70%由Rodin生成)。
△来源:B站UP主 做3D的小邓子
当然这样结构鲜明的生成模型,对3D打印爱好者也是极其友好的,稍作涂装就是一只精巧的玩具:
AI生成领域的专业用户也对Rodin生成模型的质量赞赏有加:
然而,这已经不是影眸科技这家3D大模型公司第一次给这一领域带来一些“小震撼”了。
3D大模型研发的“非共识”道路
2024年8月,全球最顶尖的计算机图形学会议 ACM SIGGRAPH 大会上,影眸与上科大联合研发的3D原生大模型Clay发表,并与团队同年研发的3D服装生成模型Dresscode同时获得SIGGRAPH2024最佳论文荣誉提名,团队也成为这一领域内唯一在同一个学术顶会上获得两项该提名的中国团队。
Clay的提出显著提升了3D生成的质量,也成为了当前学术界3D大模型广泛认可的技术路径。
△Clay、DressCode获得SIGGRAPH2024最佳论文荣誉提名
基于CLAY的三维资产生成工具Rodin Gen-1在去年6月推出,产品以它最接近“Production-Ready”的生成效果,上线后就备受关注。
它的生成质量、可用性都代差级地领先当时的同类产品。凭借其优质的生成效果,Rodin仅用45天就达成了100万美元ARR,而大名鼎鼎的HeyGen达到这个数字花了7个月。
这背后,来源于影眸始终如一对“Prodution-Ready”的追求。
“Production-Ready”这个词来自CG行业。CG行业中有一个词——后期(Post-Production),而“Production-Ready”的意思就可以直接接入到后续的流程中使用。
这也是影眸产品研发、开发的共识,正是这样的共识,让影眸在开始3D大模型研发之初,就走上了一条“非共识”的道路。
在那时,2D升3D的技术方案是学术界主流的3D生成方式,同时,市面上已经有团队推出了基于2D升维技术路径的3D生成产品。
可是影眸凭借多年的技术探索和产品打造经验,他们看到了2D升维路径的瓶颈。2D数据终究只记录了真实物体的一个侧面,再多角度的图像也无法完整描述一个3D内容,因此模型学到的东西依旧存在很多信息缺失,生成结果还是需要大量的人工修正,很难满足使用需求。唯一的解法是从一开始就用3D原生数据。
彼时,影眸正遭遇着资本环境快速变差导致的融资失利。于是一个艰难的选择摆在了影眸面前:
到底是先用主流技术做出一个产品上牌桌,还是用更大的力气去死磕一个还不明确的技术方向。
影眸团队选择了后者,更难、更需要时间、但是更正确的事。
7个月后,对技术的精准直觉和坚持给了他们回报。
而Rodin Gen-1.5的发布更是影眸对“Production-Ready”坚持的更进一步。通过新一代3D原生表达,Rodin Gen-1.5全面解决了行业内长期存在的薄面与边缘锐度问题,再次提高 3D 生成全行业商用标准。
无机形状的生成能力、锐利的边缘以及非常干净的拓扑结构,这是Rodin 1.5在3D生成能力上最凸显出来的性能提升。这一点在游戏,尤其是产品设计领域中尤为重要。这次升级也让影眸的产品领先幅度再次扩大。
已进入游戏、动画工作流
现在,用户借助Rodin对几何以及PBR材质的精准生成能力,能够快速地制作适用于不同场景的三维资产。
用户们已经在试验Rodin辅助游戏制作的能力。
有直接生成单个静态物件的。
△来源:X.com @MartinNebelong
也有为大场景批量生成npc的。
事实上,已经有用户将Rodin生成的结果放入自己开发的游戏中了。
也有个人开发者基于Rodin开发了一整套工作流。
△来源:B站UP主 T-BOY
动画、影视制作也是Rodin应用的一大场景。
有用户使用Rodin生成的资产搭建了一整个城镇,制作了简单的动画。
△来源:X.com @jungle_jimjim
也有用户和现有AI路线结合,在离线引擎中制作高质量CG内容。
△来源:X.com @Itryandlearn3D
稍作调整,Rodin的资产质量甚至可以达到影视级。
△来源:B站UP主 T-BOY
3D大模型何时迎来“ChatGPT时刻”?
影眸认为,在Rodin-Gen1.5之前,3D大模型的发展主要有2个阶段:
-
Level1 —— Clay发布前的基于2D升维技术路径的3D生成,需要大量人工后期的修正才能达到可用标准
-
Level2 —— 以Clay为基础的3D原生三维生成大模型,刚刚触碰到“Prodution-Ready”的标准
而Rodin Gen-1.5的发布,已经把三维大模型带到了Level3的程度,它对生成模型更加精确、细致地表达,解决了3D大模型一直以来存在的问题,大幅拓宽了3D大模型的使用边界。
过去几年里,生成式AI已在文字、图像、音频、视频取得重大进展,3D生成常被认为是“世界模型(World Model)”的 “最后一块拼图”。随着技术进步和消费需求的提升,3D行业未来的发展前景广阔。去年,AutoDesk、Meta、NVIDIA、腾讯、微软等纷纷推出了自己的3D生成大模型,积极布局这一前沿领域。在与行业巨头的竞争中,影眸团队凭借其在3D建模/图形学领域的深耕与对3D行业用户需求洞察,在技术与商业化方面长期领先。
在未来,3D生成还有很大的可供挖掘的空间。要实现在AR/VR/虚拟世界中的个人创作,就要解放用户的3D内容创作能力。作为构建在三维空间中的世界,未来机器对世界的理解也必然基于三维,所以在具身智能领域,对3D的需求是始终存在的。
相信在影眸科技等3D大模型团队的共同努力下,我们很快就会迎来3D领域的“ChatGPT”时刻。
*本文系量子位获授权刊载,观点仅为原作者所有。
—
(文:量子位)