CVPR 2025 最佳论文|Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式

VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。该模型在多个任务中的性能显著超越传统优化方法,并且推理速度达到秒级。