微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。