

-
论文:Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation -
论文链接:https://arxiv.org/abs/2410.22489 -
GitHub链接:https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot



-
Intermodal Feature (IF) Head(跨模态特征头):学习与 2D 视觉特征对齐的 3D 点云特征。
-
Unimodal Feature (UF) Head(单模态特征头):提取 3D 点云本身的特征。
-
Backbone 和 IF Head 保持冻结,确保模型在 Few-shot 学习时能利用其预训练学到的 Intermodal 特征。这样,在 Few-shot 任务中无需额外的 2D 输入,仅依赖 Intermodal 特征即可获益于多模态信息。
-
此外,该特征也隐式对齐了 VLM 的文本特征,为后续阶段利用重要的文本引导奠定基础。
-
两套 correlations 会通过 Multimodal Correlation Fusion (MCF) 进行融合,生成初始多模态 correlations,包含了 2D 和 3D 的视觉信息。这个过程可以表示为:




-
当前获得的多模态 correlations 融合了不同的视觉信息源,但文本模态中的语义信息尚未被利用,因此设计了 Multimodal Semantic Fusion (MSF) 模块,进一步利用文本模态特征作为语义引导,提升多模态 correlations:












(文:机器之心)