PC Agent-E是什么
PC Agent-E是上海交通大学和SII联合推出的高效智能体训练框架。框架用312条人类标注的计算机使用轨迹,基于Claude 3.7 Sonnet模型合成多样化的行动决策,显著提升数据质量。框架包含轨迹收集、思维链补全、轨迹增强和代理训练四个关键部分。PC Agent-E在WindowsAgentArena-V2基准测试中取得241%的性能提升,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。

PC Agent-E的主要功能
- 高效训练:仅需312条人类标注轨迹,基于数据增强显著提升模型性能。
- 跨平台泛化:在OSWorld基准测试中,展示强大的跨平台能力,适用于不同操作系统。
- 任务执行:支持完成多种复杂任务,如文件操作、软件使用、网页浏览等。
- 数据增强:基于合成多样化行动决策,丰富轨迹数据,提升模型泛化能力。
PC Agent-E的技术原理
- 轨迹收集(Trajectory Collection):基于PC Tracker工具记录人类操作轨迹,包括任务描述、屏幕截图和键盘/鼠标操作。用简单的标注过程,收集少量高质量的人类操作轨迹。
- 思维链补全(Thought Completion):基于Claude 3.7 Sonnet模型为每个动作步骤添加背后的思考逻辑。基于提供任务描述、历史动作和当前状态,生成符合人类思维的推理过程。
- 轨迹增强(Trajectory Boost):为轨迹的每一步合成更多的动作决策,捕捉任务的多样性。用Claude 3.7 Sonnet模型,为每一步生成多个合理的动作决策,丰富轨迹数据。
- 代理训练(Agent Training):在开源模型Qwen2.5-VL-72B的基础上进行训练。用简单的端到端训练框架,确保模型能够高效学习并执行任务。
- 评估与验证:在WindowsAgentArena-V2和OSWorld基准测试中验证模型性能。调整合成动作数量,验证轨迹增强方法对性能提升的关键作用。
PC Agent-E的项目地址
- 项目官网:https://gair-nlp.github.io/PC-Agent-E/
- GitHub仓库:https://github.com/GAIR-NLP/PC-Agent-E
- HuggingFace模型库:https://huggingface.co/henryhe0123/PC-Agent-E
- arXiv技术论文:https://arxiv.org/pdf/2505.13909
PC Agent-E的应用场景
- 自动化办公:自动完成文档编辑、数据分析等任务,提高办公效率。
- 软件测试:模拟用户操作,发现软件中的错误和问题,提升软件质量。
- 教育辅助:作为虚拟助教,帮助学生完成计算机操作任务,提供即时指导。
- 辅助残障人士:提供辅助操作功能,方便残障人士使用计算机。
- 跨平台兼容:在不同操作系统之间迁移和执行任务,实现无缝切换。