Computer-Agent

主要文章

APP-Use/CUA

概要

app-use, cua-github,

UI-TARS-1.5

重要

UT-TARS-1.5-7B Model, ui-tars-blog

(2506)Ground-R1: GRPO for GUI Grounding Done RIght

Ground-R1 摘要

GRPO for GUI Grounding Done Right， code， dataset， model
GUI Grounding任务，对Aria-UI和OS-Atlas 数据做清洗，基于UI-TARS-1.5-7B/QwenVL-32B/72B做GRPO微调训练。🏃
在ScreenPot/OSWorld-G上做评测，Ground-R1效果优异超过basline，并分享了参数经验和思考 👍 。

❓问题背景

Ground-R1 背景

GUI Agent代表用户执行任务时，根据用户指令在UI上点击坐标，是一个关键步骤。
GUI Grounding示例 🤔
- 用户意图：点击菜单
- 模型操作：根据意图识别位置并正确点击

如预测红色圈圈⭕️位置：

SFT 🆚 GRPO 方法

SFT：预测位置中心的精准位置
GRPO：不要求精准位置，接受各种正确位置，对不同位置采样，做奖励和惩罚。

📕核心方法

核心方法

GRPO训练 🏃

模型基于指令和图像进行思考推理，再输出结果。
输出格式：<think></think>\n<answer></anser>
Reward：Click-based Reward

GUI 数据集 📚

数据列：Instruction、GUI Image、Target bouding box $(x_{m i n}, y_{m i n}, x_{m a x}, y_{m a x})$ 。
- 一般包括Mobile、Desktop(win桌面)、Web(浏览器界面)。
数据集：Aria-UI， OS-Atlas。更清晰、对齐更好。
- 数据收集工具：屏幕截图、A11y、HTML等。
轻量级数据质量清洗策略，code
- 使用OmniParser检测屏幕截图上的所有元素
- 计算bounding box 和元素的 IoU
- 过滤掉低阈值IoU的样本

数据清洗示例

蓝色：bounding box 标注
红色：OminiParser检测结果
绿色：未对齐的蓝色标注，会过滤掉

✍️实验设置

实验配置

模型：UI-TARS ，Qwen2.5-VL，7B、32B、72B。
训练code：VLM-R1
资源：800张H100，200 iterations.
参数经验：
- 需要使用大Batch size (128)：小size(16/32)可能会导致训练不稳定。
  - 如：某batch仅包含正确或错误样本，奖励信号坑会消失，导致模型崩溃
- 每个样本8次rollout：增加会导致收益递减。
- 无需使用KL：使用KL会限制在桌面和web端的探索
- 学习率不敏感：1e-6通常都不错。
评测榜单
- ScreenSpot-V2、ScreenSpotPro、OSWorld-G

🍑关键结果

关键结果

参数经验 📗
- GRPO 思考不是必须的：效果来自于目标对齐。避免思考和KL约束，坐标预测更准确灵活。
- Click Reward 已足够。
- 无需SFT冷启动：Qwen2.5-VL、UI-TARS已足够强大，GRPO之前进行SFT不能提升性能。
Ground-R1 性能出众 🚀 ： 7B超过UI-TARS、OpenAI-CUA、Qwen2.5-VL-72B等
是否使用思考进行训练 ❓ 🤔
- 静态环境bench：差距不大（0.5%）👿
- 动态环境bench⭐：思考非常有效 👏 (AndroidWorld)。
  - 因为获得了任务object、历史轨迹、用户指令等，鼓励模型在复杂挑战性动态环境里思考 👍。
  - 使用AndroidControl数据训练7B模型，使用思考后，任务成功率从39%->44%。
GRPO比SFT效果好(90.2->92.4, 42.5->50.1)，前提是基模效果不错GRPO才能提升。
- 若基模差，可能会因为奖励信号不足而陷入困境。

⛳未来方向

未来方向

暂未说明

(2506) Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H

摘要

Holo1, paper

❓问题背景

Holo1 问题背景

开发自主导航、与网络界面交互的agent，非常有挑战。
在实际网络任务中，LLM受限于成本、可访问性、网络动态环境的限制。
大多数webagent依赖昂贵的专有模型，限制了实际部署应用。
Tool-use Agent 虽能和网络环境交互，但受限于预定义API，每个新领域都需要大量工程开销。
Computer-use Agent直接和图形界面交互。之前大都依赖html/dom解析，面对网站变化和不同平台，就很脆弱。

📕核心方法

Holo1 核心方法

Holo1，采用纯视觉方案-网页截图，模仿人类感知交互，具有更好鲁棒性和通用性。

3️⃣个训练模块 💡

策略模块(Policy) - 大脑 🧠
- 功能：充当决策中心，分析目标/屏幕截图/历史记忆等，决定下一步做什么，输出具体动作。
- 小动作空间：点击按钮、搜索框输入文字、向上向下滚动页面、等待、刷新、生成答案等。
- 模型：专门的VLM
- 透明模仿人类的思考过程 🤔 ：每个动作之前，会先思考和记笔记 📝，都用文本形式存储下来。
  - 方法：CoT、Structure Generation等。
定位器模块(Localizer) - 眼镜和手 👁️ ✋
- 功能：在屏幕上精准找到位置，返回坐标 $(x, y)$ ，系统才能模拟鼠标去操作正确的地方。
验证器模块(Validator) - 质量检察员 👨‍🔬
- 功能：大脑给出答案时，验证器做最后把关，检查答案是否正确，是否真的完成用户要求。
还有个Memory模块，不用训练。

Holo1架构如下：

Holo1 数据组成

三大训练数据📚 ，总计31.46B tokens，有深度有广度）

1、GUI Grounding (51%)：认识世界、打造AI鼠标

Localizer 根据视觉确定需要交互位置，需要精准和智能、需要泛化到各种网页上。
广度训练 - WebCrawl数据集 (打好地基)
- 爬取400w网站，让AI“博览群站”
- 针对超链接、按钮、输入框等做意图映射，意图描述通过GPT4等模型来生成。
- 训练数据：网页截图、意图描述 --> (x, y)
深度训练 -- WebSynthetic 数据集 (难度训练)
- 针对比较难的场景，人工构建场景数据，做能力优化。
- 困难场景：日历(动态的、复杂的)、表格(二维的，需同时理解行和列)、==图标(非文字)==等。

2、Complex Visual Understanding (32%)：复杂视觉理解场景

坐标验证：培养判断力和批判性思维
- 任务：输入网页截图 + 指令(意图,如登录按钮) + 坐标(x,y)，输出是/否 (坐标是否真的指向该意图)
- 目的：判断智能体操作是否正确、目标是否准确，提升精确性。
- 数据：500w对
UI提取：培养全局视野和情境意识
- 任务：输入网页截图，输出所有能交互的元素, 元素(位置+标签)
- 目的：训练policy模块，在做决策前需要知道页面上所有可能性
- 数量：700w 网页
视觉问答：培养深度阅读和信息提取能力
- 任务：输入复杂图片 + 问题，输出答案，提取信息来回答问题
- 目的：让agent完成更高级、更有价值的真实任务
- 数量：1.5亿tokens、30w张图片

3、Behavior Learning (17%)：模仿成功经验来行动和判断

多模态轨迹数据：真实agent执行过程，输入过去的记忆+最近几帧截图，预测== 下一步（思考、笔记、动作）==。
过滤行为克隆：在WebVoyager(643个任务)和WebVoyagerExtended(1.5w个任务)的成功轨迹上训练
Validation 学习：100w个输入输出对，用于答案评估和反馈生成。

✍️实验设置

实验配置

模型：Qwen2.5-VL-Instruct-3B/7B
框架：私有框架
任务：每个模型都去训练policy、localizer、validator以及标准VLM能力。

🍑关键结果

关键结果

Localization 评估
- Benchmark：WebClick(新提出)、Screenspot、Screenspot-V2、Screenspot-Pro、GroundUI-Web
- Holo1-3B/7B，拆过UI-Tars-3B/7B等模型。
WebVoyager
- 性能较好、成本也较低，比同类成本降低4倍。
- 超越OpenAI Operator(87.0%) 和Project Mariner (83.5%)，与BrowserUse(89.1%)持平。

⛳未来方向

未来方向

(2503) 知乎

重要

📗 知乎一文带你全面认知CUA...

主要文章 ​

APP-Use/CUA ​

UI-TARS-1.5 ​

(2506)Ground-R1: GRPO for GUI Grounding Done RIght ​

(2506) Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H ​

(2503) 知乎 ​