微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。

机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天

Figure的机器人通过改进后的Helix系统和视觉自体感觉模型,仅用30天便完成了从汽车工厂到物流中心的工作转型。技术升级让Figure走进工厂的速度更快了,该公司创始人表示未来四年将交付10万台人形机器人,并预计2025年成为机器人量产的关键之年。