双鸭山不锈钢保温工程 别光给Agent加Tool了,它根柢选不解白!复旦×通义忽视全新CUA测验范式

2026-06-03 06:29:13 189

铁皮保温

给 Agent 同期接上 GUI 操作和器具调用双鸭山不锈钢保温工程,准确率反而下落了。

模子根柢不会在 GUI 和 Tool 之间采取。该点按钮的时间去调 API,该调 API 的时间又死磕菜单,两端乱窜,越帮越忙。

为应酬这挑战,复旦大学和通义实验室 MobileAgent 团队结伴忽视ToolCUA,个面向 GUI-Tool 夹杂算作空间的 Computer Use Agent。

中枢方向就个:让模子学会什么时间走 GUI,什么时间切 Tool,什么时间不该调器具。

效果罕见能。

ToolCUA-8B 在 OSWorld-MCP 上拿到46.85准确率,过 Claude-4-Sonnet,迫临 Claude-4.5-Sonnet。

代码、模子权重已开源。

夹杂算作空间下的旅途困惑

传统的 CUA 主要依赖原子化 GUI 操作,举例、输入、拖拽、飘浮。这类操作泛化强,只消界面上能看到按钮,表面上模子就能点;但它也有明短板:表率长、罪过容易积蓄,在复杂任务中很容易出现 cascading errors。

违反,tool calls 或 API-based operations 时时、精准。举例在 LibreOffice 里批量处理表格,GUI-only 案可能需要串冗长的菜单和参数成立,而器具调用可能个 API 就能完成。

看起来当然的案,是让 Agent 同期领有 GUI 和 Tool。但实验发现个畸形反直观的事实:平直把 tools 接到强模子上,并不会自动升迁能。

在 hybrid GUI-Tool action space 中,Agent 每步齐站在个歧路口:左边是 GUI,右边是 Tool。GUI 泛化强但慢,Tool 快但依赖掩盖与转折文要求。要是模子空泛旅途采取才能,就会出现两类典型失败 :

Tool underuse:明明有的器具,模子仍然险些只走 GUI 道路。

Tool overuse:模子频频调用器具,但调用时机不合、调用粒度不合,反而镌汰任务到手率。

论文将这个问题界说为optimal GUI-Tool path selection:在长程任务中动态决定何时使用 GUI actions、何时调用 tools,从而变成、可靠的推论旅途。

上图左侧的表格平直给出了这个反直观风景:旦把 tools 接到强模子上,效果并不老是好。

Qwen3VL-8B 险些不使用器具,平均 tool calls 惟一 0.003,准确率从 29.0 降到 28.2;Qwen3VL-235B 则明倾向于调用器具,平均 tool calls 达到 6.10,表率数从 25.9 降到 17.4,但准确率反而从 41.1 降到 38.1。

Claude 系列通常讲明了这点。

Claude-4-sonnet 在加入器具后表率数从 23.6 降到 19.2,但准确率从 47.7 降到 43.5;Claude-4.5-sonnet 的表率数从 23.3 降到 19.1,但准确率从 61.9 降到 48.4。

这讲明,夹杂算作空间真确难的不是有莫得器具,而是模子在 GUI 和 Tool 之间会不会选路。

阶段:数据合成与 Tool-Bootstrapped RFT

要让模子学会 GUI-Tool path selection,先需要质料的 interleaved GUI-Tool trajectories。但现实中,这类数据畸形稀缺。

实在器具接口时时应用联系、掩盖不齐全,而且艳羡本钱;而收罗实在 GUI-Tool 夹杂轨迹又需要复杂的环境接入和东谈主工标注。

已有 GUI 数据固然范围很大,但大多是 GUI-only trajectories,只教模子如何和输入,并莫得告诉模子何时应该用器具替代冗长 GUI 操作。

ToolCUA 的步,等于把这些 GUI-only 数据周转,并趁势完成阶段的 hybrid bootstrapping。

论文忽视Interleaved GUI-Tool Trajectory Scaling Pipeline:从已有 GUI 轨迹开拔,专揽 MLLM 合成 grounded tool library,再将 GUI-only trajectories 转变成 interleaved GUI-Tool trajectories。

通盘这个词 pipeline 不错抽象为三个表率 :

1、Trajectory-aware synthetic tool library construction。

对每条 GUI 轨迹,模子会分析任务方向、算作序列和截图形色,从实在操作经过中抽象出可调用的器具。

举例从 Chrome 开辟经过中抽象出 chrome_open_language_settings,从 LibreOffice 表格操作中抽象出读取职责簿信息、创建透视表等器具。

这些器具不是虚构生成的 API 模板,而是 grounded in concrete trajectory behavior,也等于从实在 GUI 举止中抽象出来的器具才能。

2、Tool trajectory generation with next-state grounding。

给定合成器具库和原始 GUI 轨迹,MLLM 生成个等价的 tool-only trajectory,并为每步展望 tool response。

随后通过 next-state grounding,将器具推论果锚定到原始 GUI 轨迹中的下帧截图,考据器具表率和可见情状变化是否致。

3、Interleaved GUI-Tool trajectory generation。

后,系统不会浅薄地把通盘 GUI 操作齐替换成器具,而是当场采样部分器具调用,再替换回对应 GUI 子序列,变成多种 GUI 与 Tool 交错的轨迹。

这个假想畸形关节:它让模子看到不同 tool availability 下的有筹画界限,也当然产生 GUI -> Tool 和 Tool -> GUI 的 critical switching steps。

终,ToolCUA 的数据中草率包括了 4k 个 unique tools,掩盖 fine-grained、mid-grained、coarse-grained 多粒度,草率有 180k steps 数据用于 warmup SFT,还从 critical steps 中 sample 出 5k 条用于 single-turn RL。

基于这些数据,ToolCUA 越过推论Tool-Bootstrapped GUI RFT。这阶段的方向,不是平直学齐全长程政策,而是先给模子下个可用的 hybrid foundation。

具体来说,ToolCUA 先在 D_all 上进行 warmup SFT,学习多模态器具调用常识,包括器具用途、参数、复返效果,以及器具推论后的情状变化。

随后,模子在 D_critical 上进行 single-turn RL,在明确的 GUI-Tool switching steps 上采样多个 completion,并通过反映校准模子在局部界限上的采取。

这阶段作念的事情是:先把 interleaved GUI-Tool 数据合成出来,再让模子先学会会用器具和在局部切换点上别选错。

Online Agentic RL 与 Tool-Efficient Path Reward双鸭山不锈钢保温工程

要是说阶段科罚的是模子先要参加 hybrid action space,那么二阶段科罚的等于:模子如安在实在环境里学会 trajectory-level 的旅途采取。

ToolCUA 的二阶段是Online Agentic RL。这步不再只化单步算作,而是在实在 GUI-Tool environment 中进行 long-horizon rollout,让模子学习齐全任务轨迹上的旅途采取。

团队先构建了同期具备 GUI actions 和 Tool calls 的可用 Sandbox 用于 agentic RL,而况为器具复返效果假想了加结构化的体式便于模子营救。

Agentic RL 化的中枢是Tool-Efficient Path Reward:

其中,R_fmt 和 R_acc 分手是表率体式励与任务到手励;R_tool 和 R_length 则是 ToolCUA 门假想的两项轨迹励,而况它们只在到手轨迹上激活,避模子从失败推论里学到演叨偏好。

项是Tool Appropriateness Reward ( R_tool ) 。

在数据构建时,每个任务会带个 task-level 的 tool-beneficial 标志:t_b = 1 暗示这个任务合乎用器具,t_b = -1 暗示这个任务不合乎用器具。与此同期,c 暗示整条轨迹里的 tool calls 数。

于是,R_tool 励的不是器具调用多,而是精准的两种举止 :

关于合乎器具的任务,到手轨迹里如实调用了器具。

关于不合乎器具的任务,到手轨迹里反而莫得乱用器具。

它要科罚的恰是前边提到的 hybrid confusion:有些模子明明该用器具却无谓,有些模子则在不该用的时间乱用。R_tool 的作用,等于把器具是否合适这件事从任务到手里单拎出来测验。

二项是Path Efficiency Reward ( R_length ) 。

这里,设备保温施工s 是刻下轨迹的步数,bar{s} 是同组 rollout 的平均步长,S_max 是大推论步数。ToolCUA 不拿个固定阈值来判定长照旧短,而是作念 group-relative comparison:

要是某条到手轨迹比组内平均短,就给线 bonus。

要是长,就作念衰减。

这么假想的平允是,模子会当然倾向于探索短的到手旅途。而在好多场景里,短的旅途碰巧意味着:用个层器具替代长串冗余 GUI 操作。因此,R_length 内容上是在饱读吹模子发现的GUI-Tool execution path。

是以,这阶段的中枢并不是让模子调用多器具,而是让它学会两件事:什么时间器具确凿合适,什么时间这条推论旅途确凿短。

OSWorld-MCP 上达到 46.85,相对升迁约 66

ToolCUA 主要在 OSWorld-MCP 上评测。这个 benchmark 在传统 OSWorld 的基础上引入了 hybrid GUI-Tool action space,掩盖典型 GUI actions、150+ tools 和主流桌面应用,合乎掂量模子在实在夹杂算作空间中的推论才能。

评测磋商包括 :

Accuracy:任务到手率

TIR ( Tool Invocation Rate ) :是否作念对任务,而况在 tool-beneficial tasks 中使用器具,并在 non-tool-beneficial tasks 中避器具

ACS ( Average Completion Steps ) :平均完成步数,掂量推论率

ToolCUA-8B 在 OSWorld-MCP 上取得46.85  accuracy,比较 Qwen3-VL-8B-Instruct baseline 的28.23,相对升迁约66。

同期,ToolCUA 过了 GUI-Owl-1.5-8B ( 43.84 ) 、Gemini-3.1-Pro ( 41.14 ) 和 Claude-4-Sonnet ( 43.54 ) ,并接近 Claude-4.5-Sonnet ( 48.35 ) 与 GUI-Owl-1.5-32B ( 48.05 ) 。

蹙迫的是率磋商。ToolCUA 的 ACS 仅为14.93 steps,是表中通盘模子里低的。这讲明 ToolCUA 不仅仅完成了多任务,也学会了用短旅途完成任务。

与 Qwen3-VL-8B-Instruct 比较,ToolCUA 的 overall TIR 从8.41升迁到24.32,ACS 从19.34降到14.93。这讲明模子不仅会作念任务,也会判断什么时间应该调用器具。

在测验阶段,Online Agentic RL 只使用单应用 Linux 任务,并刻意甩掉了 multi_apps domain,用于 OOD 考据。

效果示,在 held-out multi_apps 任务上,ToolCUA 从 baseline 的9.8和 pre-online RL stage 的18.5升迁到23.9。

在具体应用域上,ToolCUA 也有明升迁。举例在 libreoffice_calculation 上从19.6升迁到34.8,在 vs_code 上从66.7升迁到94.4。

越过,ToolCUA 还在 WindowsAgentArena 上进行评测。

尽管测验数据和 sandbox 齐来自 Linux 桌面环境,ToolCUA 在 unseen Windows desktop apps 上达到33.8  accuracy,过 Qwen3-VL-8B-Instruct 的26.4、Qwen3-VL-32B-Instruct 的30.9,也过 Qwen3-VL-235B-A22B 的32.1。

这讲明 ToolCUA 学到的并不仅仅某些特定任务模板,而是接近种可挪动的hybrid action orchestration才能。

为什么 ToolCUA 真确学会了选路

ToolCUA 的升迁到底来自那儿?论文里的 ablation 很默契地给出三条论断。

,要是莫得 interleaved GUI-Tool trajectory data,online RL 本人学不会可靠的 tool use。

当去掉 offline interleaved GUI-Tool bootstrapping,平直从 Qwen3-VL-8B-Instruct baseline 运转作念 online agentic RL 时,模子的 overall accuracy 固然也会继续上升,但它很难真确学会踏实的器具调用举止。

典型的风景是:TIR 经久偏低,测验后期也只到约15;tool calls 在大部分测验过程中齐接近0。

这讲明,仅靠 trajectory-level online reward,并不及以让个 GUI-centric base model 当然长出靠谱的 hybrid switching 才能。模子需要先通过 interleaved supervision 赢得器具常识和切换先验。

二,要是莫得 Tool-Efficient Path Reward,模子学不会踏实且的旅途。

通常在 rl_dynamics 里不错看到,去掉 R_tool 和 R_length 后,只保留表率的 R_acc 与 R_fmt,accuracy 弧线会明不踏实,在测验 step  8-11足下出现下落,终与齐全 ToolCUA 之间有草率7 个点的差距。

与此同期,TIR 和 tool-calls 也莫得踏实上升趋势,trajectory length 也空泛执续下落。

这讲明,任务到手励本人不及以造就模子什么时间器具是合适的和什么旅途才是真确的。

三,Hybrid GUI-Tool training 比 pure GUI training 有。

论文越过比较了 pure GUI training 和 hybrid GUI-Tool training。

GUI-only pipeline 从 baseline  29.03升迁到 SFT 后34.93,再到 agentic RL 后42.05;而 GUI+Tool pipeline 中,RFT 还是达到38.13,齐全 ToolCUA 越过达到46.85。

地址:大城县广安工业区

这标明 hybrid GUI-Tool action space 本人等于个保确凿测验环境。模子不仅仅学 visual grounding,也在这个过程中学会何时应该用结构化器具替代冗余 GUI 操作。

WindowsAgentArena 的效果也讲明,这种测验范式带来的不是单点收益,而是强的跨平台泛化才能。

真确的 GUI-Tool 协同

为了直不雅地营救 ToolCUA 的才能,不错看两个执行案例。

个是 LibreOffice Calc 任务:用户要求在个名为 Sheet2 的新 sheet 中创建两个 pivot tables,分手统计 product 和 sales channel 对应的 total revenue。

GUI-only 法世俗需要采取数据范围、开菜单、成立字段、证据参数,表率冗长且容易出错。

ToolCUA 则先调用器具读取 workbook 信息和 sheet 内容,识别数据结构与字段位置,然后平直调用 create_pivot_table 生成透视表。

这个案例展示的不是器具永久比 GUI 好,而是 : 当任务中枢是结构化表格操作时,Tool 不错绕过脆弱的冉冉 GUI 航,用确定的式完成任务。

二个案例来自 VS Code。任务是将 /home/user/data1 和 /home/user/data2 两个文献夹加入刻下 workspace。

ToolCUA 先结伴调用 add_folder 器具,把两个目次加入 VS Code workspace。

这步畸形合乎器具调用,因为旅途明确、操作结构化、方向可考据。

但器具调用完成后,VS Code 弹出了 Do you trust the authors? 的信任证据对话框。

这个情状不是浅薄 tool call 就能闭环的。

此时 ToolCUA 切换回 GUI action, Yes, I trust the authors。

完成界面上的后步。

这恰是 ToolCUA 念念科罚的问题:它不是试图用 Tool 替代通盘 GUI,也不是送还纯 GUI 操作,而是在实在环境里学习两种 action space 的协同与切换。

Hybrid action training,下代 CUA 测验范式

在 agent 高涨的动下,computer use agent 正在积地探索实在宇宙里的落地旅途。

ToolCUA 为社区揭示了个关节风景:旦参加 hybrid action space,现存 CUA 和部分强基座模子会出现明的旅途困惑,以致致准确率下落。

团队通过 staged training paradigm 在 hybrid action training 上作念了次故意探索,并考据了这道路的有。

接下来,值得继续和进的向,是构建大范围的 CUA 器具,测验大范围的 CUA 基座模子,让 CUA 原生具有 hybrid actions 的才能,好地科罚东谈主类复杂问题。

容颜网站:https://x-plug.github.io/ToolCUA/

代码仓库:https://github.com/X-PLUG/ToolCUA

模子地址:https://huggingface.co/mPLUG/ToolCUA-8B

Mobile-Agent 系列:https://github.com/X-PLUG/MobileAgent

键三连「点赞」「转发」「注意心」

接待在驳斥区留住你的念念法!

—  完  —

咱们正在招聘名眼疾手快、保重 AI 的学术裁剪实习生  � �

感兴味的小伙伴接待保重 � �  了解服气

� � 点亮星标 � �

科技前沿发挥逐日见

相关词条:铁皮保温    塑料挤出机     钢绞线    玻璃卷毡厂家    保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

新闻资讯

热点资讯