全球首个多模态交互 3D 大模型上线，GPT-4o 没做到的，它先做到了！

前些天，GPT-4o 的多模态生图功能上线后，迅速引发了全球 AI 社区的广泛关注，尤其是其“吉卜力风”图像生成在全网引发热潮。

GPT-4o 将文本、图像、语音与视频等模态联合训练，在同一个大模型中实现了多模态的统一支持。其图像生成不仅在特征保留和上下文理解方面表现出色，更具备高度可控性，让多模态生成迈入了全新的阶段。

Neural4D 介绍

在更具挑战性的 3D AIGC 领域，去年介绍过的 DreamTech，近期正式推出其全新的 Neural4D 2o 多模态大模型，支持文本与图像输入，实现基于自然语言的实时交互式编辑 —— 成为全球首个支持多模态交互的 3D 大模型。

Neural4D 2o 采用文本、图像、3D、motion 等多模态联合训练，构建了统一的 transformer encoder 与 3D DiT decoder，使得模型在单一架构内具备高度一致的上下文理解能力。它不仅支持高精度的局部编辑，还能稳定保持角色 ID，实现换装、风格迁移等复杂操作。

值得一提的是，Neural4D 2o 还原生支持 MCP 协议，并上线了基于 MCP 的 Neural4D Agent（alpha 版本），为用户提供更加智能、便捷且高质量的 3D 内容创作体验。

实测效果

上传一张川普的图片。

输入提示词t：“保持他的长相、表情和穿着，生成一个全身的 Q 版形象。”

继续输入提示词：“保持他的表情、Q版风格。把角色的衣服换成火影忍者中佩恩六道的衣服，胳膊自然张开 45 度，手掌向下，给人一种关税战中俯视消灭众生的感觉。”

“不要改变发型，重新生成。”

上传一张新图：

“把图二的表情加到角色上。体现出来特朗普关税战被反制后哭泣形象。”

打开手机的 AR：

把这个做成实物手办：

过去“动动手就能 P 图”，现在则是“动动手就能抠 3D 模型”。实际试用下来，Neural4D 2o 在稳定性、上下文一致性、局部编辑与角色 ID 保持等方面表现已经非常成熟。唯一的短板是当前交互响应时间仍偏长，平均等待大约 2 至 5 分钟，用户使用时偶尔还会遇到排队现象，推测是服务器资源尚未完全跟上用户需求的激增。

这项能力的成熟，对于 3D 设计师来说无疑是一个重磅利好。此前 AI 虽能生成 3D 模型，但最大的问题在于“难以编辑”。设计师往往只能将 AI 输出作为初步概念或粗模参考，真正落地还需手动导入 ZBrush、Blender、3DS Max、Maya 等专业工具，进行大量细节修改和重构，耗时耗力。

而现在，借助 Neural4D 2o 的强大多模态能力与智能交互接口，仅需通过自然语言对话，就能完成过去只有专业建模师才能做到的精细操作。人人都是 3D 设计师的时代，或许真的就要到来了。

官网链接👇

https://www.neural4d.com/n4d-2o

团队介绍

DreamTech 深耕于 3D 及 4D AI 技术领域，致力于用创新的产品和服务提升全球 AIGC 创作者及消费者的使用体验，愿景是利用先进的 AI 技术打造与真实世界无缝对接、实时互动的 4D 时空体验，并通过模拟真实世界的复杂性和多样性实现通用人工智能 (AGI)。

（文：特工宇宙）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复