PC-Agent团队 投稿
量子位 | 公众号 QbitAI
面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。
从Office到浏览器,跨APP工作流都可以交给AI来完成了。
指令1(翻译):在记事本应用程序中,打开“文档”中的“备忘录”文件,查看上午的第二项活动。在时钟应用程序中,在该活动开始前1小时设置闹钟。
指令2(翻译):在文件资源管理器中,打开“文档”中的“旅行计划”文件,查看旅行计划的目的地。将旅行目的地添加到时钟应用程序的世界时钟列表中。在Chrome浏览器上搜索从北京到旅行目的地的航班时间。
指令3(翻译):在Chrome浏览器中分别搜索英伟达(Nvidia)和苹果(Apple)的当前股价。在Excel中打开“stock_prices”文件,将公司名称写入A列,相应的股价写入B列。
指令4(翻译):在Outlook中读取发给豪伊的主题为“旅行”的已读邮件,记录行程的出发地、目的地和出发日期。在Chrome浏览器上的booking.com网站搜索单程机票。
指令5(翻译):在文件资源管理器中打开“文档”文件夹里的“test_doc1”文件,在Word中将标题设为加粗,并将前两段的行距设为1.5倍。
近期,基于多模态大模型(MLLM)构建GUI智能体以实现智能设备上(如手机、PC)的任务自动化,受到了广泛的关注。
如下图所示,与手机相比,PC场景的复杂性体现在两方面:
一是PC的图形界面包含了更密集多样的可交互元素,以及不同布局的文本,给细粒度感知带来了挑战;二
是PC常用于生产力场景,涉及更多复杂的App内及跨App工作流,因此包含更复杂的任务序列。
现有工作如UFO、Agent-S等,对文本的精细感知和操作能力不足,并且忽视了子任务之间的复杂依赖,因此在复杂PC任务上存在局限性。
针对这一问题,阿里通义实验室的研究人员提出面向复杂PC任务的多模态智能体框架PC-Agent:
(1)设计主动感知模块(APM)实现对屏幕内容的精细感知和操作;
(2)提出层次化多智能体协作结构,将复杂指令分解为指令-子任务-动作3个层次,并在相应层次设置Manager、Progress、Decision及Reflection智能体,实现对复杂指令自上而下的难度分解,以及自下而上的精确反馈。
为了更好地评估智能体在复杂PC任务上的表现,作者还构建了一个涉及8个常用PC应用的复杂指令集,实验评估发现,所提出的PC-Agent框架在复杂任务上的表现显著超越已有方法。
主动感知模块APM
对于可交互元素,通过提取屏幕的accessibility tree来获取其位置及功能描述信息。对于文本信息,当决策智能体触发Select (目标文本)动作时,主动感知模块通过基于MLLM的意图理解模块提取目标文本的起止范围,然后利用OCR工具进行精确定位及后续精细操作。
△主动感知模块示意图
层次化多智能体协作
PC-Agent将复杂指令的执行分解为3个层次:指令-子任务-动作。
(1)在指令层次,设置Manager智能体负责将复杂指令拆分为子任务,以及进行跨子任务通信。如上图所示,复杂指令的子任务之间往往相互依赖,部分子任务需要前序子任务的执行结果才能实例化为一个可独立执行的子任务。设置Manager智能体,有助于处理子任务之间复杂的依赖关系,并有效降低单一子任务的决策难度。
(2)在子任务层次,设置Progress智能体,负责跟踪和总结子任务的执行进度,从而实现更精确的进度感知,并避免冗长模糊的操作历史干扰决策。
(3)在动作层次,设置Decision智能体和Reflection智能体。对于当前子任务的每个步骤,Decision智能体通过感知模块观察屏幕,并结合Progress智能体输出的进度信息和Reflection智能体输出的反思信息,生成当前步骤的操作决策。Reflection智能体则根据每个步骤操作前后屏幕的变化,判断该步骤是否达到了预期的效果,并将可能出现的异常情况反馈给Progress和Decision智能体。
△PC-Agent框架示意图
PC-Eval指令集
由于现有基于真实PC环境的动态评测数据集(如WindowsAgentArena)主要由相对基础的指令构成,为了更好地评估智能体在实际场景复杂指令的表现,作者提出了一个新的评测指令集PC-Eval,包含涉及8个常用PC应用的25条复杂用户指令。
每条指令由若干具有依赖关系的子任务构成,强调精细化操作及长程决策,并与现实场景工作流相对应。下表列举了部分指令的示例。
实验结果
现有基于先进MLLM(如GPT-4o、Claude-3.5)的单智能体方法,几乎无法完成任何复杂指令,验证了PC复杂场景在感知、决策方面极具挑战性。此外,对比分析现有的开源多智能体方法UFO及Agent-S的测试结果,可以发现:
(1)现有方法的精细感知和操作能力较弱,例如UFO在Excel表格场景会将多个信息重复填入同一单元格,而UFO和Agent-S均无法执行Word文档的编辑操作。
(2)现有方法无法有效处理子任务间复杂的依赖,例如对于“打开文档A,翻译其内容,新建文档B,将文档A内容的翻译写在文档B中”这样的指令,Agent-S会在新建的文档中写下“The translation of the content”这句话,而非实际的翻译内容。
(3)相比之下,主动感知模块使得PC-Agent具备精细感知与操作能力,层次化多智能体协作也实现了有效的指令拆解、子任务间通信、进度感知以及错误反馈,从而显著提升了PC-Agent在复杂任务上的性能表现。
样例展示
搜索多项信息并编辑Excel表格的操作序列
Reflection智能体发现无效操作并反馈给Decision智能体
Word文档中的居中、添加下划线等编辑操作
论文链接:https://arxiv.org/pdf/2502.14282
代码链接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent
(文:量子位)