全球首个多模态交互 3D 大模型上线,GPT-4o 没做到的,它先做到了!

前些天,GPT-4o 的多模态生图功能上线后,迅速引发了全球 AI 社区的广泛关注,尤其是其“吉卜力风”图像生成在全网引发热潮。
GPT-4o 将文本、图像、语音与视频等模态联合训练,在同一个大模型中实现了多模态的统一支持。其图像生成不仅在特征保留和上下文理解方面表现出色,更具备高度可控性,让多模态生成迈入了全新的阶段。

Neural4D 介绍

在更具挑战性的 3D AIGC 领域,去年介绍过的 DreamTech,近期正式推出其全新的 Neural4D 2o 多模态大模型,支持文本与图像输入,实现基于自然语言的实时交互式编辑 —— 成为全球首个支持多模态交互的 3D 大模型。

Neural4D 2o 采用文本、图像、3D、motion 等多模态联合训练,构建了统一的 transformer encoder 与 3D DiT decoder,使得模型在单一架构内具备高度一致的上下文理解能力。它不仅支持高精度的局部编辑,还能稳定保持角色 ID,实现换装、风格迁移等复杂操作。

值得一提的是,Neural4D 2o 还原生支持 MCP 协议,并上线了基于 MCP 的 Neural4D Agent(alpha 版本),为用户提供更加智能、便捷且高质量的 3D 内容创作体验。

实测效果

上传一张川普的图片。

输入提示词t:“保持他的长相、表情和穿着,生成一个全身的 Q 版形象。”

继续输入提示词:“保持他的表情、Q版风格。把角色的衣服换成火影忍者中佩恩六道的衣服,胳膊自然张开 45 度,手掌向下,给人一种关税战中俯视消灭众生的感觉。”

“不要改变发型,重新生成。”

上传一张新图:

“把图二的表情加到角色上。体现出来特朗普关税战被反制后哭泣形象。”

打开手机的 AR:

把这个做成实物手办:

过去“动动手就能 P 图”,现在则是“动动手就能抠 3D 模型”。实际试用下来,Neural4D 2o 在稳定性、上下文一致性、局部编辑与角色 ID 保持等方面表现已经非常成熟。唯一的短板是当前交互响应时间仍偏长,平均等待大约 2 至 5 分钟,用户使用时偶尔还会遇到排队现象,推测是服务器资源尚未完全跟上用户需求的激增。

这项能力的成熟,对于 3D 设计师来说无疑是一个重磅利好。此前 AI 虽能生成 3D 模型,但最大的问题在于“难以编辑”。设计师往往只能将 AI 输出作为初步概念或粗模参考,真正落地还需手动导入 ZBrush、Blender、3DS Max、Maya 等专业工具,进行大量细节修改和重构,耗时耗力。

而现在,借助 Neural4D 2o 的强大多模态能力与智能交互接口,仅需通过自然语言对话,就能完成过去只有专业建模师才能做到的精细操作。人人都是 3D 设计师的时代,或许真的就要到来了。

官网链接👇

https://www.neural4d.com/n4d-2o

团队介绍

DreamTech 深耕于 3D 及 4D AI 技术领域,致力于用创新的产品和服务提升全球 AIGC 创作者及消费者的使用体验,愿景是利用先进的 AI 技术打造与真实世界无缝对接、实时互动的 4D 时空体验,并通过模拟真实世界的复杂性和多样性实现通用人工智能 (AGI)。

(文:特工宇宙)

发表评论