首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!

首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA 上海AI Lab港中文等团队新作

无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。