Mobile-Agent-v3:GUI自动化的基础智能体

本文介绍了GUI-Owl,一个基础性的图形用户界面(GUI)智能体模型,在涵盖桌面与移动端的十个GUI基准测试中,其在开源端到端模型中达到了当前最先进水平,全面覆盖了GUI定位、问答、规划、决策与程序性知识等任务。GUI-Owl-7B在AndroidWorld基准上取得66.4分,在OSWorld上取得29.4分。在此基础上,我们提出了Mobile-Agent-v3——一个通用的GUI智能体框架,进一步将性能提升至AndroidWorld的73.3分和OSWorld的37.7分,为开源GUI智能体框架树立了新的性能标杆。GUI-Owl包含三项核心技术创新:(1)大规模环境基础设施:构建了一个基于云的虚拟环境,覆盖Android、Ubuntu、macOS与Windows系统,支撑了我们提出的自演化GUI轨迹生成框架(Self-Evolving GUI Trajectory Production)。该框架通过自动化查询生成与结果正确性验证,利用GUI-Owl自身对轨迹进行迭代优化,形成闭环自我改进机制。该基础设施支持多样化的数据流水线,显著减少了人工标注需求。(2)多样化的基础智能体能力:通过整合用户界面定位、任务规划、动作语义与推理模式,GUI-Owl实现了端到端的决策能力,并可作为模块化组件嵌入多智能体系统中。(3)可扩展的环境强化学习:我们设计了一种支持全异步训练的可扩展强化学习框架,以实现与真实世界的一致性对齐。此外,我们提出了一种轨迹感知的相对策略优化方法(Trajectory-aware Relative Policy Optimization, TRPO),用于在线强化学习,在OSWorld上实现了34.9分的性能表现。GUI-Owl与Mobile-Agent-v3已开源,项目地址为:https://github.com/X-PLUG/MobileAgent。