科技量子位··AI 生成
别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式
复旦大学与通义实验室MobileAgent团队联合提出ToolCUA,一种针对计算机使用代理(CUA)的混合动作空间训练范式。研究发现,同时赋予模型GUI操作和工具调用能力反而会导致性能下降,根源在于模型缺乏在两者间最优选择的“路径困惑”。ToolCUA通过两阶段训练——离线数据合成与策略微调,以及基于工具效率奖励的在线强化学习——让模型学会在何时走GUI、何时切工具。8B参数的模型在OSWorld-MCP基准上达到46.85%准确率,超过Claude-4-Sonnet,并展现出跨平台泛化能力。本文适合关注AI Agent、多模态模型与自动化系统研发的研究者或工程师阅读。
核心观点
- ▍在CUA的混合动作空间中,同时引入GUI操作和工具调用并不会自动提升性能,反而会因模型产生“路径困惑”(path confusion)导致准确率下降,其核心挑战在于让模型学会最优的GUI-Tool路径选择。
- ▍ToolCUA提出两阶段训练范式:第一阶段通过Interleaved GUI-Tool轨迹合成与Tool-Bootstrapped RFT建立混合动作基础;第二阶段通过Online Agentic RL与专门设计的Tool-Efficient Path Reward,让模型在真实环境中学会长程任务中的路径选择与协同切换。
- 01实验数据显示,Qwen3VL-8B在接入工具后准确率从29.0%降至28.2%;Qwen3VL-235B从41.1%降至38.1%;Claude-4-Sonnet从47.7%降至43.5%;Claude-4.5-Sonnet从61.9%降至48.4%,直接验证了“路径困惑”现象。
- 02ToolCUA的数据合成Pipeline将已有的GUI-only轨迹,通过MLLM合成基于轨迹的grounded工具库,再生成功能等价的工具轨迹,并通过next-state grounding验证一致性;最终随机采样生成多种GUI与工具交错的轨迹,包括关键的切换步骤。
- 03Online Agentic RL阶段的核心奖励设计包括Tool Appropriateness Reward(R_tool)和Path Efficiency Reward(R_length)。R_tool奖励在适合工具的任务中成功调用工具,并惩罚在不适合的任务中滥用工具;R_length通过组内相对比较,鼓励模型探索更短的成功路径。
- 04ToolCUA-8B在OSWorld-MCP上取得46.85%准确率,相对Qwen3-VL-8B-Instruct基线(28.23%)提升约66%,且平均完成步数仅为14.93 steps,是表中所有模型最低的。
- 05在未见的WindowsAgentArena任务上,ToolCUA-8B达到33.8%准确率,超过Qwen3-VL-235B-A22B的32.1%,验证了训练范式的跨平台迁移能力。
- 06消融实验表明:缺少离线interleaved数据,在线RL无法学会稳定工具调用(TIR长期低于15%);去掉R_tool和R_length奖励,模型准确率曲线不稳定,与完整版本有约7个百分点的差距。
反方 / 局限
- — 文章承认ToolCUA的训练数据仅限于Linux桌面环境,虽然在WindowsAgentArena上表现出跨平台泛化能力,但其在更复杂、非桌面的真实交互场景(如移动端、嵌入式系统)中的效果尚未验证。
- — 文中指出,当前的ToolCUA-8B模型在性能上接近但并未全面超越Claude-4.5-Sonnet(48.35%),且使用的模型规模(8B)有限,更大规模的CUA原生模型可能是更优解,但未进行充分探索。
复旦大学通义实验室MobileAgent团队ToolCUAComputer Use AgentGUI-Tool路径选择Interleaved GUI-Tool轨迹Tool-Bootstrapped RFTOnline Agentic RLTool-Efficient Path RewardOSWorld-MCPWindowsAgentArenaQwen3VLClaudeX-PLUG
20 分钟 · 10 卡片 · 23 资料
读原文 →概念锚点
前置背景
技术原理
平行视角
未来推演
延伸追问