-
-
• Agent S2 是啥? Simular AI 推出的第二代 开源 AI Agent 框架,能像人一样直接操作电脑和手机的 图形用户界面 (GUI),完成各种任务。 -
• 牛在哪? 在 OSWorld (电脑) 和 AndroidWorld (手机) 等权威基准测试中,性能全面超越 OpenAI、UI-TARS 等,刷新 SOTA (业界最佳) 记录。 -
• 凭什么这么牛? 借鉴人脑的 模块化设计,协同通用大模型和专用模型;采用四大创新架构:主动分层规划、纯视觉定位交互 (只看截图就能操作!)、专家模块接口 (给大模型减负)、经验驱动的记忆机制 (越用越聪明)。 -
• 亮点是啥? 完全开源,跨平台 (Win/Mac/Linux),灵活集成 多种大模型 (LLM),而且直接用原始截图交互,泛化能力超强,不受特定应用限制。 -
• 意味着什么? AI 帮你处理繁琐的电脑/手机操作不再遥远,个人智能自动化助理正加速到来,生产力即将迎来新一轮革命。
性能炸裂!Agent S2 全面刷新 SOTA 记录
Agent S2 的实力并非纸上谈兵,它在多个行业公认的 CUA 基准测试中展现了卓越的计算机和手机操作能力,取得了新的 State-of-the-Art (SOTA,即当前最佳水平) 成果。
挑战最难任务:OSWorld 基准测试表现
OSWorld 是一个衡量 AI Agent 在真实操作系统环境下完成复杂任务能力的权威基准。Agent S2 在该测试中表现亮眼,特别是在模拟真实世界使用场景的 15 步和 50 步评估中:

数据显示,在更长、更复杂的 50 步评估中,Agent S2 达到了 34.5% 的准确率,成功超越了此前由 OpenAI CUA/Operator 创下的 32.6% 的记录。这充分证明了 Agent S2 的 Agentic 框架不仅能生成最优的任务计划、采取更精确的行动,而且在长任务序列中具备优秀的自我修正和持续改进能力。它的性能可以随着任务步数的增加而有效扩展,显示出其框架设计能够超越单一训练模型的极限。
跨平台验证:AndroidWorld 基准测试表现
Agent S2 的能力不仅限于桌面环境,在移动端同样出色。在 AndroidWorld 这个专注于评估 Android 手机操作能力的基准测试中,Agent S2 同样取得了 SOTA 成绩:

根据 Simular AI 的最新数据,Agent S2 在 AndroidWorld 上实现了 54.3% 的准确率,显著超过了之前的 SOTA 记录保持者 UI-TARS (46.8%)。这一成绩不仅展示了 Agent S2 框架在不同视觉 UI 环境(桌面 vs 移动)下的强大 泛化能力,也证明了其模块化设计和核心原则的普适性。
SOTA 背后:框架的可扩展性、泛化性与自我修正能力
这些 SOTA 成绩的取得,并非仅仅依赖于某个强大的基础模型,而是 Agent S2 框架本身设计优越性 的体现。它证明了一个精心设计的 Agentic 框架能够有效地组织和协调不同模型的优势,实现:
-
• 可扩展性: 在长达 50 步的任务中依然保持甚至提升性能优势。 -
• 泛化性: 在差异巨大的桌面和移动环境中均取得 SOTA。 -
• 自我修正与鲁棒性: 能够在长任务序列中从错误中恢复并调整计划。
设计哲学:为何“模块化”是构建强大 AI Agent 的终极答案?
Agent S2 取得突破性进展的核心,在于其遵循的 模块化设计哲学,这一理念的灵感,直接来源于我们人类大脑的运作方式。
灵感源自人脑:专业化分工与高效协同
人脑是一个极其精妙的模块化系统。不同的脑区专注于不同的任务:左半球擅长分析思维,右半球驱动创造力,视觉皮层处理图像,运动和感觉区域管理身体协调。这些高度专业化的“模块”并非孤立工作,而是通过复杂的神经网络协同运作,共同完成高级认知功能。
Simular 的理念:框架优于单一模型
Simular AI 坚信,最高效的 AI Agent 应该遵循类似的原则——构建一个能够 无缝编排多种不同模型的模块化框架,而不是依赖一个试图包揽一切的、庞大而笨重的单一系统。他们的第一代 Agent S 框架就体现了这一愿景。
创新点一:整体大于部分之和
Agent S2 的研究进一步证明了一个有些反直觉但至关重要的观点:一个精心设计的模块化框架,即使其内部使用的单个模型并非各自领域的最优选择,其 整体性能也可能超越当前最强大的单一模型。
为什么会这样?因为不同的 AI 模型各有擅长。有的模型(如大型语言模型,是“通才”)擅长理解指令、进行高层规划;有的模型(如专门的视觉模型或操作模块,是“专家”)则精于识别界面元素或执行特定精细动作。
一个强大的 模块化框架 扮演的角色就是 “指挥家”,它负责 优化这些模块之间的协同,确保每个模型在其最擅长的环节发挥作用。这种方式:
-
1. 发挥长处,规避短处: 让每个模型专注于自己擅长的事情。 -
2. 降低复杂度: 将复杂任务分解给不同的模块。 -
3. 提升效率和鲁棒性: 专用模型通常更快、更可靠。 -
4. 易于更新和扩展: 轻松替换或添加新的模块,适应技术发展。
因此,Agent S2 的成功证明了,智能的“编排”与模块化的“协作” 可能比单纯追求单个模型的“强大”更为关键。
深入 Agent S2 核心:四大架构创新揭秘
Agent S2 强大的能力源于其精心设计的架构,该架构围绕 四个核心设计原则 构建,旨在通过模块化和可扩展的方式处理复杂的数字任务。
原则一:主动分层规划
复杂的计算机任务天然具有层次性。Agent S2 遵循这种结构,将任务规划分为两层:高层规划由通用大模型负责制定策略,低层执行由专用模型负责精确操作。
更关键的是,Agent S2 采用 主动式规划。不同于仅在出错时才重新规划的被动方式,Agent S2 在 每个子任务成功完成后,都会主动地、动态地更新和调整后续计划。这种“走一步看三步”的方式,显著提升了 Agent S2 在复杂动态环境中的 适应性、连贯性 和 效率。
原则二:纯视觉定位交互
这是 Agent S2 的一个核心创新点,堪称让 Agent 真正拥有了“慧眼”。 传统的 GUI 自动化工具常依赖于应用提供的结构化信息(如可访问性树),但这覆盖不全、一致性差、无法处理非标准元素。
Agent S2 摒弃了对这种结构化信息的硬性依赖,转而采用 纯粹基于视觉 的方式。它 仅使用原始的屏幕截图作为输入,通过 专门的视觉定位模型 来识别元素、精确定位,并支持精确的点击、输入、拖拽等操作。
这种“所见即所得”的方式,使得 Agent S2:
-
• 极其通用: 能操作几乎任何有图形界面的应用。 -
• 交互精度高: 实现像素级的精确控制。 -
• 更接近人类直觉: 模拟人类主要依赖视觉操作的方式。
这是 Agent S2 能够跨越不同应用和平台取得成功的基石。
原则三:带专家模块的智能接口
为了让核心的通用大模型能专注于高层规划,Agent S2 引入了 专家模块。其核心思想是,将一些 复杂或需要特殊技巧的低层操作(如精确选择文本),从通用大模型的职责中 卸载 出去,交给专门、高效的专家模块处理。
这样做的好处是:
-
• 降低大模型的“认知负荷”: 让其专注于战略思考。 -
• 提升任务执行效率和可靠性: 专家模块更快更准。 -
• 更清晰的职责分离: 架构更清晰,系统更稳定。
原则四:经验驱动的记忆机制
一个真正智能的 Agent 需要从经验中学习。Agent S2 引入了一种 持续学习的记忆机制,使其能够随着经验积累而进化,越用越聪明。
通过记录和分析过去的 任务执行过程(情节记忆) 并提炼 经验教训(叙事记忆),Agent S2 能够:
-
• 回忆先前的成功行动。 -
• 基于历史成败优化未来策略。 -
• 实现长期自适应智能, 变得越来越懂用户、越来越高效。
理论的先进性最终要通过实践来检验。下面,就让我们通过一系列真实的电脑和手机操作实例,眼见为实地感受 Agent S2 的强大执行力。
Agent S2 的跨平台“神操作”展示
Agent S2 不仅理论先进,更能流畅地完成各种跨应用、跨平台的复杂任务。以下精选几个实例(每个任务仅展示一张代表性截图,更多步骤细节请参考原始资料),直观感受 Agent S2 是如何像人类一样操作电脑和手机的。
电脑端任务实例
任务1:下载、编辑、导出图片 (Google Drive + GIMP)
目标: 从 Google Drive 下载图片,用 GIMP 压缩并导出。这涉及到网页、文件系统和图像编辑软件的复杂交互。

任务2:复制图片到文档并导出 (GIMP + LibreOffice)
目标: 将 GIMP 中的图片复制到 LibreOffice Writer 文档,并导出为 PDF。这演示了跨应用的数据操作和文档处理。
任务3:安装浏览器插件
目标: 在浏览器中找到并安装一个 Web 扩展。这需要 Agent 理解浏览器界面,导航商店,搜索,安装并处理确认。
任务4:移除视频字幕并导出 (视频编辑软件)
目标: 使用视频编辑软件移除视频字幕并导出。这展示了操作专业软件处理时间线、轨道等复杂交互的能力。
任务5:在电子表格中计算利润 (LibreOffice Calc)
目标: 在 LibreOffice Calc 中根据数据计算利润。涉及定位单元格、输入公式等操作。

=C2-B2
。)任务6:在文档中划掉段落 (LibreOffice Writer)
目标: 在 LibreOffice Writer 文档中找到最后一个段落并应用删除线格式。考验文本定位和格式化能力。
手机端任务实例
Agent S2 的能力同样延伸到了 Android 智能手机环境。
任务7:填写联系人表单 (Android)
任务: 在 Android 联系人应用中按要求填写姓名、电话、标签等信息。测试移动 App 内导航、输入、选择等基本操作。

任务8:整理文件系统 (Android)
任务: 在 Android 文件管理器中将一个文件从一个文件夹移动到另一个文件夹。需要浏览、选择、执行移动、导航等文件管理动作。

这些实例生动地展示了 Agent S2 的实际操作能力,它已能够在真实世界的操作系统和应用程序中完成复杂、有意义的任务。
Agent S2 – 不仅仅是工具,更是智能交互的未来
Agent S2 的出现,标志着计算机使用代理 (CUA) 技术迈上了一个新的台阶。它不仅在基准测试上取得了令人瞩目的 SOTA 成绩,更重要的是,它展示了一条通过 模块化设计、纯视觉交互、主动规划和持续学习 来构建强大、通用、适应性强的 AI Agent 的可行路径,并将其 开源 贡献给了整个社区。
Agent S2 的核心价值与突破在于:
-
• 性能领先: 在复杂 GUI 操作任务上证明了卓越的能力。 -
• 理念创新: 强调模块化协同优于单一“超级模型”。 -
• 技术扎实: 四大核心设计原则(尤其纯视觉交互)是其高效运作的基础。 -
• 实践可行: 大量实例证明其能在真实环境中完成有意义的任务。 -
• 开放灵活: 完全开源、跨平台、支持多种 LLM,潜力无限。
我们正站在智能交互变革的前夜。Agent S2 这样的技术,让我们得以一窥未来:AI 不再仅仅是信息处理的工具,而是能够像熟练的人类助手一样,直接操作我们日常使用的数字设备。从 自动化繁琐工作流,到为 残障人士提供辅助,再到创造 全新的交互体验,CUA 技术拥有无限的想象空间。
Agent S2 以其开源的姿态,邀请全球的开发者和研究者共同参与到这场激动人心的探索中。它不仅仅是一个工具,更是一个火种,有望点燃智能交互的燎原之火,开启一个人机协作更加紧密、更加高效的新纪元。
推荐阅读
-
• [Agent S 开源项目地址 (GitHub)] https://github.com/simular-ai/Agent-S – 访问 GitHub 仓库,查看源代码,动手实践。 -
• [Simular AI 官方博客文章] https://www.simular.ai/articles/agent-s2 – 阅读 Simular AI 官方发布的关于 Agent S2 的介绍文章。
(文:子非AI)