在人工智能技术蓬勃发展的当下，人们对于电脑操作的智能化、自动化需求日益增长。传统的电脑操作方式在面对复杂任务和频繁重复操作时，往往显得效率低下且耗费人力。上海交通大学与 Generative AI Research Lab (GAIR)联合推出的 PC – Agent 应运而生，为解决这些问题带来了新的曙光。它旨在通过模拟人类认知过程，实现电脑操作的自动化和智能化，极大地提升用户的工作效率和使用体验。本文将详细介绍 PC – Agent 的技术细节、功能特性、应用场景以及使用方法，帮助读者深入了解这一创新成果。

一、项目概述

PC – Agent 是一款具有创新性的电脑智能体 AI 系统，其核心目标是执行如组织研究材料、起草报告和创建演示文稿等复杂数字工作。它通过集成 PC Tracker、运用两阶段认知完成流程以及采用多智能体系统架构等关键技术，实现了在少量高质量认知数据训练下，处理多达 50 步的复杂工作流程的能力，展现出卓越的数据效率和实际应用潜力。

二、技术原理

1、PC Tracker：人机交互数据采集基石

PC Tracker 在后台运行，记录键盘、鼠标活动与屏幕截图，以此收集人机交互数据。它采用基于事件的跟踪策略，只记录关键操作事件（如点击文件打开、文档输入文字、切换应用程序等），摒弃连续视频流记录，有效减少存储需求。同时，将键盘和鼠标操作封装为统一动作空间，把连续按键组合成输入指令、整合点击拖拽等操作，使 AI 更易理解人类行为，为后续数据处理和模型训练打基础。

2、认知完成流程：数据到认知的升华

认知完成流程是 PC – Agent 的核心，含数据精炼与认知完成两阶段。数据精炼时，轨迹过滤去除意外中断产生的错误数据，动作过滤排除冗余操作，标准化操作将截图分辨率统一为 1080p，保障数据质量与一致性。认知完成阶段，先补充点击动作语义信息，结合上下文生成详细目标描述，如点击图标时记录坐标及相关信息；再基于此重建动作背后的推理过程，分析操作逻辑与任务关联，推测用户意图，助力 AI 实现从数据记录到认知跨越。

3、多智能体系统：协同作业的智能核心

PC – Agent 的多智能体系统由规划智能体和定位智能体构成。规划智能体基于人类认知轨迹学习，能依据用户任务目标、电脑当前状态及历史操作信息制定合理操作计划，如创建演示文稿时确定软件打开、模板选择及内容插入顺序。定位智能体负责执行点击动作，其自验证机制可根据规划智能体的目标描述在屏幕定位目标元素，获取元素详细信息与规划信息比对。若不匹配，会及时反馈促使规划智能体重新规划，保障在复杂环境中准确执行任务，接近人类操作精度。

三、主要功能

1、任务自动化：繁琐工作一键搞定

PC – Agent 可自动化执行复杂数字任务，常见于办公场景。在组织研究材料时，它依据用户设定的主题和关键词，在本地文件系统或网络资源中搜索相关文档、图片和数据，然后按逻辑分类整理。比如，对于 “人工智能在医疗领域应用” 的研究，它能快速收集学术论文、临床案例和统计数据，并分类存储。起草报告时，用户提供主题和框架，PC – Agent 利用内置文本生成能力及对资料的理解，自动生成初稿，完成文字撰写、数据引用和图表插入。创建演示文稿时，它根据用户需求选模板，自动填充内容并排版设计，生成专业的演示文稿，大幅节省用户时间和精力。

2、人机交互数据收集：行为洞察助力优化

借助PC Tracker，PC – Agent能全方位收集用户与计算机交互的详细轨迹和认知上下文信息。其中包含点击、输入、拖拽等操作步骤，以及操作时间顺序、间隔、应用切换情况等。此外，还涵盖用户操作时的思考与决策依据，如参考的文档、界面提示等。

通过深度分析这些数据，研究人员可以洞察用户操作习惯和行为模式，发现用户操作中遇到的难题。例如，若发现用户在特定操作上频繁失误或耗时较长，开发团队便能针对性改进PC – Agent的相关功能，提升其易用性和智能化程度，为系统优化提供有力数据支撑。

3、认知轨迹转化：数据价值深度挖掘

PC – Agent 运用独特的两阶段认知完成流程，把原始人机交互数据转化为富含认知信息的轨迹。这一转化能让 AI 从操作记录中提炼出用户意图和思维过程，进而更好地学习和模仿人类行为。比如在用户进行文件管理操作时，它通过分析操作顺序和上下文，判断用户是在分类、备份还是清理文件，并将这些理解转化为认知轨迹存储学习。随着认知轨迹的不断积累，PC – Agent 处理类似任务的能力和效率逐步提升，为用户提供更智能、个性化的服务。

4、复杂工作处理：多应用无缝协同

PC – Agent 具备处理多应用复杂工作流程的强大能力。以制作演示文稿为例，它能在浏览器和 PowerPoint 间切换协同。先在浏览器按用户指定主题搜索图片、文字资料，再精准复制或引用到 PowerPoint 演示文稿中，并依据文稿风格布局进行调整排版。在此过程中，PC – Agent 自动识别并适应不同应用的界面和操作方式，实现无缝切换与协同，确保工作流程高效流畅。

5、多智能体协作：精准决策与定位

PC – Agent 通过规划智能体和定位智能体的协同，实现高效决策与精准视觉定位。处理任务时，规划智能体根据任务目标和环境状态制定操作策略与步骤。定位智能体凭借精准定位和自验证机制，确保操作准确作用于目标元素。像软件安装时，规划智能体确定点击 “下一步” 按钮的操作，定位智能体在屏幕上找到按钮位置点击。若定位出现偏差或按钮不可见，及时告知规划智能体调整策略，保障任务顺利执行。

6、少量数据训练：高效学习快速应用

PC – Agent 在训练中展现出突出的数据效率优势，仅需少量认知轨迹数据（如 133 条）就能掌握复杂工作流程，执行多达 50 步的任务。这得益于其先进技术架构和高效学习算法，能从有限数据中提取关键知识与模式。比如学习新办公软件操作流程，通过少量典型案例学习，PC – Agent 快速理解软件功能和操作逻辑，在不同任务场景中灵活运用，大幅缩短训练时间和成本，提升系统实用性与可扩展性。

四、应用场景

1、办公自动化：效率提升新引擎

在办公自动化领域，PC – Agent 能够极大地提高工作效率。它可以自动创建和编辑各种文档、表格和演示文稿，如在 Word 文档中快速生成规范的报告格式、在 Excel 表格中进行复杂的数据计算和图表制作、在 PowerPoint 演示文稿中设计精美的页面布局和动画效果等。同时，它还能够自动化日常办公任务，如邮件的自动发送和接收、日程的管理和提醒等。例如，用户可以设置 PC – Agent 在每天早上自动打开邮箱，筛选出重要邮件并进行分类整理，同时将当天的日程安排同步到日历应用中，并在重要会议前提前提醒用户，使得用户能够更加专注于核心工作，提高办公效率和质量。

2、研究与学术：科研助手展实力

对于研究人员和学者来说，PC – Agent 是一个强大的科研助手。它可以帮助整理和分析大量的研究数据，例如在实验数据处理方面，它能够快速导入各种格式的数据文件，进行数据清洗、统计分析和可视化处理，生成直观的图表和报告，帮助研究人员快速发现数据中的规律和趋势。在文献综述撰写过程中，PC – Agent 可以自动搜索相关的学术文献，提取关键信息和观点，并按照一定的逻辑结构进行组织和总结，为研究人员提供全面的文献综述初稿，大大节省了研究人员在资料收集和整理方面的时间和精力，加速科研进程。

3、内容创作：创意激发与高效排版

在内容创作领域，PC – Agent 能够为创作者提供有力的支持。它可以根据创作者提供的主题和大纲，自动生成相关的内容素材，并进行智能排版布局。例如，在撰写一篇新闻报道时，PC – Agent 可以根据事件的关键词搜索相关的背景资料和新闻素材，然后按照新闻写作的规范和要求进行内容组织和撰写，并对文章的段落结构、字体格式、图片排版等进行优化，提高内容创作的效率和质量，同时激发创作者的灵感和创意。

4、项目管理：流程优化协同强

在项目管理方面，PC – Agent 可以自动更新项目报告，实时跟踪项目进度和任务完成情况，并根据预设的规则和模板生成详细的项目报告。它还能够协调团队成员之间的任务分配和协作，例如根据团队成员的技能和工作量，自动分配任务并提醒成员按时完成。同时，它可以整合项目相关的各种资源和信息，如文档、数据、会议记录等，方便团队成员随时查阅和共享，优化项目管理流程，提高项目执行的效率和成功率。

5、客户服务：贴心服务更高效

在客户服务领域，PC – Agent 可以帮助企业管理客户数据，快速响应客户的咨询和需求。它可以自动从客户数据库中提取相关信息，根据客户的问题和历史记录提供个性化的解决方案和建议。例如，在客户咨询产品使用问题时，PC – Agent 能够迅速查找相关的产品手册和常见问题解答，并结合客户的具体情况进行分析和回答，提供快速、准确、个性化的客户支持，提高客户满意度和忠诚度。

五、快速使用

1、环境搭建

首先，确保系统安装了 Python 环境，建议使用 Python 3.8 及以上版本。

克隆 PC – Agent 的 GitHub 仓库：

git clone https://github.com/GAIR-NLP/PC-Agent

进入项目目录：

cd PC - Agent

创建并激活 conda 环境：

conda env create -f environment.ymlconda activate pcagent

2、数据准备

若需要进行自定义数据收集和训练，可以参考 PC Tracker 的相关文档进行设置。PC Tracker 的源代码位于`tracker/`目录下，可根据具体需求进行修改。例如，如果需要收集特定应用程序的操作数据，可以在`tracker/`目录下找到相应的配置文件进行调整，指定要记录的应用程序和操作事件类型。
按照规定的格式整理数据，并将其放置在`postprocess/data/`目录下，该目录下提供了示例数据可供参考。在整理数据时，需要确保数据的完整性和准确性，包括操作步骤的顺序、操作的时间戳、相关的屏幕截图等信息都要正确记录。

3、模型训练与运行

若要执行认知完成流程中的数据精炼和认知完成操作，需要提前准备好 OpenAI API 键，并执行以下命令：

python postprocess/refinement.py # 数据精炼python postprocess/completion.py # 认知完成

运行 PC – Agent 的多智能体系统：

python agent/main.py

六、结语

PC – Agent 作为上海交通大学和 GAIR 的重要研究成果，为个人电脑的智能交互带来了全新的解决方案。通过其独特的技术原理和丰富的功能特性，在办公、学术、创作、项目管理和客户服务等多个领域展现出了巨大的应用潜力。尽管目前可能还存在一些技术挑战和应用优化空间，但随着技术的不断发展和完善，相信 PC – Agent 将在未来为用户提供更加智能、高效和便捷的电脑使用体验，推动个人电脑智能化的进一步发展。

七、项目地址

项目官网：https://gair – nlp.github.io/PC-Agent/

开源仓库：https://github.com/GAIR – NLP/PC-Agent

技术论文：https://arxiv.org/pdf/2412.17589

（文：小兵的AI视界）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

别再瞎忙了！上海交大和 GAIR 推出的 PC – Agent让办公效率一路狂飙

一、项目概述

1、PC Tracker：人机交互数据采集基石

2、认知完成流程：数据到认知的升华

3、多智能体系统：协同作业的智能核心

1、任务自动化：繁琐工作一键搞定

2、人机交互数据收集：行为洞察助力优化

3、认知轨迹转化：数据价值深度挖掘

4、复杂工作处理：多应用无缝协同

5、多智能体协作：精准决策与定位

6、少量数据训练：高效学习快速应用

四、应用场景

1、办公自动化：效率提升新引擎

2、研究与学术：科研助手展实力

3、内容创作：创意激发与高效排版

4、项目管理：流程优化协同强

5、客户服务：贴心服务更高效

五、快速使用

1、环境搭建

2、数据准备

3、模型训练与运行

七、项目地址

发表评论取消回复

一、项目概述

1、PC Tracker：人机交互数据采集基石

2、认知完成流程：数据到认知的升华

3、多智能体系统：协同作业的智能核心

1、任务自动化：繁琐工作一键搞定

2、人机交互数据收集：行为洞察助力优化

3、认知轨迹转化：数据价值深度挖掘

4、复杂工作处理：多应用无缝协同

5、多智能体协作：精准决策与定位

6、少量数据训练：高效学习快速应用

四、应用场景

1、办公自动化：效率提升新引擎

2、研究与学术：科研助手展实力

3、内容创作：创意激发与高效排版

4、项目管理：流程优化协同强

5、客户服务：贴心服务更高效

五、快速使用

1、环境搭建

2、数据准备

3、模型训练与运行

七、项目地址

发表评论 取消回复

发表评论取消回复