7 小时前
OpenCUA:面向计算机使用智能体的开源基础
Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, et al

摘要
视觉-语言模型作为计算机使用代理(Computer-Use Agents, CUAs)已展现出令人瞩目的能力,能够自动化执行多样化的计算机任务。随着其商业潜力不断增长,当前最先进CUA系统的关键技术细节仍处于封闭状态。鉴于这些代理将越来越多地参与数字交互,并代表用户做出具有重大影响的决策,研究界亟需开放的CUA框架,以深入探究其能力边界、局限性及潜在风险。为弥合这一差距,我们提出OpenCUA——一个全面的开源框架,用于规模化构建CUA数据集与基础模型。本框架包含以下三个核心组成部分:(1)一套注释基础设施,可无缝捕获人类计算机使用操作的示范过程;(2)AgentNet,首个涵盖3个操作系统和200多个应用与网站的大规模计算机使用任务数据集;(3)一个可扩展的数据处理流水线,能够将示范数据转化为带有反思性长链思维(Chain-of-Thought)推理的状态-动作对,从而在数据规模扩展时持续保持性能提升。基于该框架训练的端到端代理模型在多个CUA基准测试中均表现出色。特别地,OpenCUA-32B在OSWorld-Verified基准上实现了34.8%的平均成功率,成为当前开源模型中的新SOTA(最先进水平),并超越了OpenAI的CUA模型(GPT-4o)。进一步分析表明,我们的方法在跨领域泛化方面表现良好,且在测试阶段显著受益于计算资源的增加。我们已公开发布注释工具、数据集、代码及模型,旨在为后续CUA研究构建开放的基础。