让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。
上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。
国防科大、深圳大学、武汉大学团队提出PIN-WM世界模型,可以从少量任务无关交互轨迹中识别刚体物理属性,并结合PADC提高策略学习鲁棒性。实验验证其在非抓取操作中的有效性。
本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。