摘要

本文介绍了GUI-Owl，一个基础性的图形用户界面（GUI）智能体模型，在涵盖桌面与移动端的十个GUI基准测试中，其在开源端到端模型中达到了当前最先进水平，全面覆盖了GUI定位、问答、规划、决策与程序性知识等任务。GUI-Owl-7B在AndroidWorld基准上取得66.4分，在OSWorld上取得29.4分。在此基础上，我们提出了Mobile-Agent-v3——一个通用的GUI智能体框架，进一步将性能提升至AndroidWorld的73.3分和OSWorld的37.7分，为开源GUI智能体框架树立了新的性能标杆。GUI-Owl包含三项核心技术创新：（1）大规模环境基础设施：构建了一个基于云的虚拟环境，覆盖Android、Ubuntu、macOS与Windows系统，支撑了我们提出的自演化GUI轨迹生成框架（Self-Evolving GUI Trajectory Production）。该框架通过自动化查询生成与结果正确性验证，利用GUI-Owl自身对轨迹进行迭代优化，形成闭环自我改进机制。该基础设施支持多样化的数据流水线，显著减少了人工标注需求。（2）多样化的基础智能体能力：通过整合用户界面定位、任务规划、动作语义与推理模式，GUI-Owl实现了端到端的决策能力，并可作为模块化组件嵌入多智能体系统中。（3）可扩展的环境强化学习：我们设计了一种支持全异步训练的可扩展强化学习框架，以实现与真实世界的一致性对齐。此外，我们提出了一种轨迹感知的相对策略优化方法（Trajectory-aware Relative Policy Optimization, TRPO），用于在线强化学习，在OSWorld上实现了34.9分的性能表现。GUI-Owl与Mobile-Agent-v3已开源，项目地址为：https://github.com/X-PLUG/MobileAgent。

源 PDF 查看代码