刚刚，微软多模态Agent，硬核开源...

微软在AI Agent上又有了新动作了，开源了Magma：多模态AI Agent的基础模型

Magma 是多模态 AI Agent的基础模型。作为多模态Agent模型的基石，它应该具备强大的能力来感知多模态基础世界并精确地采取目标驱动的行动。

考虑到这一点，微软开发了一种新的预训练数据，其主要由野外未标记的视频加上现有的带注释的Agent数据组成，以及一个新的预训练框架，它将所有三种模态（文本、图像和动作）的训练统一起来，以训练一个名为 Magma 的多模态 AI Agent的新基础模型。

大规模异构训练数据：在野外整理了大量数据，包括现有的多模态理解数据、UI 导航数据、机器人操作数据以及野外未标记的视频。还提出了一种新的数据收集管道来收集野外未标记的视频，这种管道可扩展且经济高效。为了从原始视频和机器人轨迹中获得有用的动作监督，精心去除了视频中的摄像机运动，然后将运动转换为“动作”监督以供我们的模型训练。这些为模型提供了独特的信号，以学习跨模态连接和长期动作预测和规划。
通用预训练目标：文本和动作本质上是不同的，因此会造成巨大的差距，而视觉标记是连续的。提出了一个通用的预训练框架，将这三种模态的训练统一起来，并表明这对于模型学习跨模态连接至关重要。更具体地说，提出了 Set-of-Mark 和 Trace-of-Mark 作为模型预训练的辅助任务，作为不同输出模态之间的桥梁。通过这种方式，在文本和动作模态之间以及图像和动作模态之间建立了良好的一致性。

https://github.com/microsoft/Magmahttps://huggingface.co/microsoft/Magma-8B

（文：PaperAgent）