LVLMs归档 - 每时AI

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

下午4时 2025/05/27 作者机器之心

上海交大等团队推出Visual-ARFT项目，专为视觉语言模型设计多模态智能体训练方法，实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o，展现强大工具调用和推理能力。