日期: 2025 年 1 月 22 日
国产模型如何追上多模态OpenAI o1?你需要知道的全在这
Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,其性能与正式版 o1 最为接近。通过 Long2Short 技术,该模型能够在有限的 token 预算下实现高性能推理,提升用户体验和资源利用效率。
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。
354篇参考文献!史上最详尽综述:视觉定位任务十年发展系统性回顾
本综述系统性回顾了视觉定位(Visual Grounding)任务过去十年的发展历程,涵盖多种设置如全监督、弱监督、半监督等,并分析了各种数据集的表现。