在人工智能技术蓬勃发展的当下,人们对于电脑操作的智能化、自动化需求日益增长。传统的电脑操作方式在面对复杂任务和频繁重复操作时,往往显得效率低下且耗费人力。上海交通大学与 Generative AI Research Lab (GAIR)联合推出的 PC – Agent 应运而生,为解决这些问题带来了新的曙光。它旨在通过模拟人类认知过程,实现电脑操作的自动化和智能化,极大地提升用户的工作效率和使用体验。本文将详细介绍 PC – Agent 的技术细节、功能特性、应用场景以及使用方法,帮助读者深入了解这一创新成果。
一、项目概述
PC – Agent 是一款具有创新性的电脑智能体 AI 系统,其核心目标是执行如组织研究材料、起草报告和创建演示文稿等复杂数字工作。它通过集成 PC Tracker、运用两阶段认知完成流程以及采用多智能体系统架构等关键技术,实现了在少量高质量认知数据训练下,处理多达 50 步的复杂工作流程的能力,展现出卓越的数据效率和实际应用潜力。
1、PC Tracker:人机交互数据采集基石
PC Tracker 在后台运行,记录键盘、鼠标活动与屏幕截图,以此收集人机交互数据。它采用基于事件的跟踪策略,只记录关键操作事件(如点击文件打开、文档输入文字、切换应用程序等),摒弃连续视频流记录,有效减少存储需求。同时,将键盘和鼠标操作封装为统一动作空间,把连续按键组合成输入指令、整合点击拖拽等操作,使 AI 更易理解人类行为,为后续数据处理和模型训练打基础。
2、认知完成流程:数据到认知的升华
认知完成流程是 PC – Agent 的核心,含数据精炼与认知完成两阶段。数据精炼时,轨迹过滤去除意外中断产生的错误数据,动作过滤排除冗余操作,标准化操作将截图分辨率统一为 1080p,保障数据质量与一致性。认知完成阶段,先补充点击动作语义信息,结合上下文生成详细目标描述,如点击图标时记录坐标及相关信息;再基于此重建动作背后的推理过程,分析操作逻辑与任务关联,推测用户意图,助力 AI 实现从数据记录到认知跨越。
3、多智能体系统:协同作业的智能核心
PC – Agent 的多智能体系统由规划智能体和定位智能体构成。规划智能体基于人类认知轨迹学习,能依据用户任务目标、电脑当前状态及历史操作信息制定合理操作计划,如创建演示文稿时确定软件打开、模板选择及内容插入顺序。定位智能体负责执行点击动作,其自验证机制可根据规划智能体的目标描述在屏幕定位目标元素,获取元素详细信息与规划信息比对。若不匹配,会及时反馈促使规划智能体重新规划,保障在复杂环境中准确执行任务,接近人类操作精度。
1、任务自动化:繁琐工作一键搞定
PC – Agent 可自动化执行复杂数字任务,常见于办公场景。在组织研究材料时,它依据用户设定的主题和关键词,在本地文件系统或网络资源中搜索相关文档、图片和数据,然后按逻辑分类整理。比如,对于 “人工智能在医疗领域应用” 的研究,它能快速收集学术论文、临床案例和统计数据,并分类存储。起草报告时,用户提供主题和框架,PC – Agent 利用内置文本生成能力及对资料的理解,自动生成初稿,完成文字撰写、数据引用和图表插入。创建演示文稿时,它根据用户需求选模板,自动填充内容并排版设计,生成专业的演示文稿,大幅节省用户时间和精力。
2、人机交互数据收集:行为洞察助力优化
借助PC Tracker,PC – Agent能全方位收集用户与计算机交互的详细轨迹和认知上下文信息。其中包含点击、输入、拖拽等操作步骤,以及操作时间顺序、间隔、应用切换情况等。此外,还涵盖用户操作时的思考与决策依据,如参考的文档、界面提示等。
通过深度分析这些数据,研究人员可以洞察用户操作习惯和行为模式,发现用户操作中遇到的难题。例如,若发现用户在特定操作上频繁失误或耗时较长,开发团队便能针对性改进PC – Agent的相关功能,提升其易用性和智能化程度 ,为系统优化提供有力数据支撑。
3、认知轨迹转化:数据价值深度挖掘
PC – Agent 运用独特的两阶段认知完成流程,把原始人机交互数据转化为富含认知信息的轨迹。这一转化能让 AI 从操作记录中提炼出用户意图和思维过程,进而更好地学习和模仿人类行为。比如在用户进行文件管理操作时,它通过分析操作顺序和上下文,判断用户是在分类、备份还是清理文件,并将这些理解转化为认知轨迹存储学习。随着认知轨迹的不断积累,PC – Agent 处理类似任务的能力和效率逐步提升,为用户提供更智能、个性化的服务。
4、复杂工作处理:多应用无缝协同
PC – Agent 具备处理多应用复杂工作流程的强大能力。以制作演示文稿为例,它能在浏览器和 PowerPoint 间切换协同。先在浏览器按用户指定主题搜索图片、文字资料,再精准复制或引用到 PowerPoint 演示文稿中,并依据文稿风格布局进行调整排版。在此过程中,PC – Agent 自动识别并适应不同应用的界面和操作方式,实现无缝切换与协同,确保工作流程高效流畅。
5、多智能体协作:精准决策与定位
PC – Agent 通过规划智能体和定位智能体的协同,实现高效决策与精准视觉定位。处理任务时,规划智能体根据任务目标和环境状态制定操作策略与步骤。定位智能体凭借精准定位和自验证机制,确保操作准确作用于目标元素。像软件安装时,规划智能体确定点击 “下一步” 按钮的操作,定位智能体在屏幕上找到按钮位置点击。若定位出现偏差或按钮不可见,及时告知规划智能体调整策略,保障任务顺利执行。
6、少量数据训练:高效学习快速应用
PC – Agent 在训练中展现出突出的数据效率优势,仅需少量认知轨迹数据(如 133 条)就能掌握复杂工作流程,执行多达 50 步的任务。这得益于其先进技术架构和高效学习算法,能从有限数据中提取关键知识与模式。比如学习新办公软件操作流程,通过少量典型案例学习,PC – Agent 快速理解软件功能和操作逻辑,在不同任务场景中灵活运用,大幅缩短训练时间和成本,提升系统实用性与可扩展性。
四、应用场景
1、办公自动化:效率提升新引擎
在办公自动化领域,PC – Agent 能够极大地提高工作效率。它可以自动创建和编辑各种文档、表格和演示文稿,如在 Word 文档中快速生成规范的报告格式、在 Excel 表格中进行复杂的数据计算和图表制作、在 PowerPoint 演示文稿中设计精美的页面布局和动画效果等。同时,它还能够自动化日常办公任务,如邮件的自动发送和接收、日程的管理和提醒等。例如,用户可以设置 PC – Agent 在每天早上自动打开邮箱,筛选出重要邮件并进行分类整理,同时将当天的日程安排同步到日历应用中,并在重要会议前提前提醒用户,使得用户能够更加专注于核心工作,提高办公效率和质量。
2、研究与学术:科研助手展实力
对于研究人员和学者来说,PC – Agent 是一个强大的科研助手。它可以帮助整理和分析大量的研究数据,例如在实验数据处理方面,它能够快速导入各种格式的数据文件,进行数据清洗、统计分析和可视化处理,生成直观的图表和报告,帮助研究人员快速发现数据中的规律和趋势。在文献综述撰写过程中,PC – Agent 可以自动搜索相关的学术文献,提取关键信息和观点,并按照一定的逻辑结构进行组织和总结,为研究人员提供全面的文献综述初稿,大大节省了研究人员在资料收集和整理方面的时间和精力,加速科研进程。
3、内容创作:创意激发与高效排版
在内容创作领域,PC – Agent 能够为创作者提供有力的支持。它可以根据创作者提供的主题和大纲,自动生成相关的内容素材,并进行智能排版布局。例如,在撰写一篇新闻报道时,PC – Agent 可以根据事件的关键词搜索相关的背景资料和新闻素材,然后按照新闻写作的规范和要求进行内容组织和撰写,并对文章的段落结构、字体格式、图片排版等进行优化,提高内容创作的效率和质量,同时激发创作者的灵感和创意。
4、项目管理:流程优化协同强
在项目管理方面,PC – Agent 可以自动更新项目报告,实时跟踪项目进度和任务完成情况,并根据预设的规则和模板生成详细的项目报告。它还能够协调团队成员之间的任务分配和协作,例如根据团队成员的技能和工作量,自动分配任务并提醒成员按时完成。同时,它可以整合项目相关的各种资源和信息,如文档、数据、会议记录等,方便团队成员随时查阅和共享,优化项目管理流程,提高项目执行的效率和成功率。
5、客户服务:贴心服务更高效
在客户服务领域,PC – Agent 可以帮助企业管理客户数据,快速响应客户的咨询和需求。它可以自动从客户数据库中提取相关信息,根据客户的问题和历史记录提供个性化的解决方案和建议。例如,在客户咨询产品使用问题时,PC – Agent 能够迅速查找相关的产品手册和常见问题解答,并结合客户的具体情况进行分析和回答,提供快速、准确、个性化的客户支持,提高客户满意度和忠诚度。
五、快速使用
1、环境搭建
首先,确保系统安装了 Python 环境,建议使用 Python 3.8 及以上版本。
克隆 PC – Agent 的 GitHub 仓库:
git clone https://github.com/GAIR-NLP/PC-Agent
进入项目目录:
cd PC - Agent
创建并激活 conda 环境:
conda env create -f environment.yml
conda activate pcagent
2、数据准备
-
若需要进行自定义数据收集和训练,可以参考 PC Tracker 的相关文档进行设置。PC Tracker 的源代码位于`tracker/`目录下,可根据具体需求进行修改。例如,如果需要收集特定应用程序的操作数据,可以在`tracker/`目录下找到相应的配置文件进行调整,指定要记录的应用程序和操作事件类型。
-
按照规定的格式整理数据,并将其放置在`postprocess/data/`目录下,该目录下提供了示例数据可供参考。在整理数据时,需要确保数据的完整性和准确性,包括操作步骤的顺序、操作的时间戳、相关的屏幕截图等信息都要正确记录。
3、模型训练与运行
若要执行认知完成流程中的数据精炼和认知完成操作,需要提前准备好 OpenAI API 键,并执行以下命令:
python postprocess/refinement.py # 数据精炼
python postprocess/completion.py # 认知完成
运行 PC – Agent 的多智能体系统:
python agent/main.py
六、结语
PC – Agent 作为上海交通大学和 GAIR 的重要研究成果,为个人电脑的智能交互带来了全新的解决方案。通过其独特的技术原理和丰富的功能特性,在办公、学术、创作、项目管理和客户服务等多个领域展现出了巨大的应用潜力。尽管目前可能还存在一些技术挑战和应用优化空间,但随着技术的不断发展和完善,相信 PC – Agent 将在未来为用户提供更加智能、高效和便捷的电脑使用体验,推动个人电脑智能化的进一步发展。
七、项目地址
项目官网:https://gair – nlp.github.io/PC-Agent/
开源仓库:https://github.com/GAIR – NLP/PC-Agent
技术论文:https://arxiv.org/pdf/2412.17589
(文:小兵的AI视界)