深览-阅读与思考

8.9

深览指数

科技量子位·06-01 13:16·AI 生成

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

复旦大学与通义实验室MobileAgent团队联合提出ToolCUA，一种针对计算机使用代理（CUA）的混合动作空间训练范式。研究发现，同时赋予模型GUI操作和工具调用能力反而会导致性能下降，根源在于模型缺乏在两者间最优选择的“路径困惑”。ToolCUA通过两阶段训练——离线数据合成与策略微调，以及基于工具效率奖励的在线强化学习——让模型学会在何时走GUI、何时切工具。8B参数的模型在OSWorld-MCP基准上达到46.85%准确率，超过Claude-4-Sonnet，并展现出跨平台泛化能力。本文适合关注AI Agent、多模态模型与自动化系统研发的研究者或工程师阅读。

核心观点

▍在CUA的混合动作空间中，同时引入GUI操作和工具调用并不会自动提升性能，反而会因模型产生“路径困惑”（path confusion）导致准确率下降，其核心挑战在于让模型学会最优的GUI-Tool路径选择。
▍ToolCUA提出两阶段训练范式：第一阶段通过Interleaved GUI-Tool轨迹合成与Tool-Bootstrapped RFT建立混合动作基础；第二阶段通过Online Agentic RL与专门设计的Tool-Efficient Path Reward，让模型在真实环境中学会长程任务中的路径选择与协同切换。

01实验数据显示，Qwen3VL-8B在接入工具后准确率从29.0%降至28.2%；Qwen3VL-235B从41.1%降至38.1%；Claude-4-Sonnet从47.7%降至43.5%；Claude-4.5-Sonnet从61.9%降至48.4%，直接验证了“路径困惑”现象。
02ToolCUA的数据合成Pipeline将已有的GUI-only轨迹，通过MLLM合成基于轨迹的grounded工具库，再生成功能等价的工具轨迹，并通过next-state grounding验证一致性；最终随机采样生成多种GUI与工具交错的轨迹，包括关键的切换步骤。
03Online Agentic RL阶段的核心奖励设计包括Tool Appropriateness Reward（R_tool）和Path Efficiency Reward（R_length）。R_tool奖励在适合工具的任务中成功调用工具，并惩罚在不适合的任务中滥用工具；R_length通过组内相对比较，鼓励模型探索更短的成功路径。
04ToolCUA-8B在OSWorld-MCP上取得46.85%准确率，相对Qwen3-VL-8B-Instruct基线（28.23%）提升约66%，且平均完成步数仅为14.93 steps，是表中所有模型最低的。
05在未见的WindowsAgentArena任务上，ToolCUA-8B达到33.8%准确率，超过Qwen3-VL-235B-A22B的32.1%，验证了训练范式的跨平台迁移能力。
06消融实验表明：缺少离线interleaved数据，在线RL无法学会稳定工具调用（TIR长期低于15%）；去掉R_tool和R_length奖励，模型准确率曲线不稳定，与完整版本有约7个百分点的差距。

反方 / 局限

— 文章承认ToolCUA的训练数据仅限于Linux桌面环境，虽然在WindowsAgentArena上表现出跨平台泛化能力，但其在更复杂、非桌面的真实交互场景（如移动端、嵌入式系统）中的效果尚未验证。
— 文中指出，当前的ToolCUA-8B模型在性能上接近但并未全面超越Claude-4.5-Sonnet（48.35%），且使用的模型规模（8B）有限，更大规模的CUA原生模型可能是更优解，但未进行充分探索。

复旦大学通义实验室MobileAgent团队ToolCUAComputer Use AgentGUI-Tool路径选择Interleaved GUI-Tool轨迹Tool-Bootstrapped RFTOnline Agentic RLTool-Efficient Path RewardOSWorld-MCPWindowsAgentArenaQwen3VLClaudeX-PLUG

20 分钟 · 10 卡片 · 23 资料

读原文 →

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问