向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling

研究团队提出’慢感知’概念,通过分解复杂几何图形为基本形状单元简化处理,并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力,提升多模态大模型在几何解析任务上的表现。

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

文章介绍了V2PE(Variable Vision Position Embedding),一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势,为视觉-语言模型的发展带来了新的机遇。