微软开源多模态AI基础模型!13位作者12位华人,丝滑操控电脑和机器人

微软研究院发布首个多模态AI agents基础模型Magma,能够理解环境、规划行动并在数字及物理空间中执行任务。它以视觉语言(VL)模型为基础,能完成从UI导航到机器人操作等各种agent任务。

新突破!微软开源多模态AI Agent,通杀数字、物理世界

微软开源多模态AI Agent基础模型Magma,具备跨数字、物理世界的多模态能力。Magma可自动处理图像、视频等数据,并内置心理预测功能。MAGMA架构使用视觉与大语言模型的混合技术实现多模态能力,展示了其在不同场景中的应用。

DeepSeek将逐日开源五个项目还未开源就有3千多个star,langchain下的深入研究助手,开源复刻Openator

DeepSeek将逐日开源五个项目,共享透明进展与创新;Open Deep Research是一款支持用户自定义研究模型和报告结构的Web研究助手;Openator是一个开源浏览器代理工具,能够执行自然语言制定的操作;Magma是一种多模态人工智能代理的基础模型;AI 多人聊天室提供支持多人同时对话、可自定义角色的实时聊天应用。