Skip to content

Computer-Agent

📅 发表于 2025/06/05
🔄 更新于 2025/06/05
👁️ -- 次访问
📝 0 字
0 分钟
computer-agent
#GUI
#CUA

主要文章

APP-Use/CUA

UI-TARS-1.5

(2506)Ground-R1: GRPO for GUI Grounding Done RIght

Ground-R1 摘要

❓问题背景

Ground-R1 背景
  • GUI Agent代表用户执行任务时,根据用户指令在UI上点击坐标,是一个关键步骤。
  • GUI Grounding示例 🤔
    • 用户意图:点击菜单
    • 模型操作:根据意图识别位置并正确点击

如预测红色圈圈⭕️位置:

SFT 🆚 GRPO 方法

  • SFT:预测位置中心的精准位置
  • GRPO不要求精准位置,接受各种正确位置,对不同位置采样,做奖励和惩罚。

📕核心方法

核心方法

GRPO训练 🏃

  • 模型基于指令和图像进行思考推理,再输出结果。
  • 输出格式:<think></think>\n<answer></anser>
  • Reward:Click-based Reward

GUI 数据集 📚

  • 数据列InstructionGUI ImageTarget bouding box(xmin,ymin,xmax,ymax)
    • 一般包括MobileDesktop(win桌面)Web(浏览器界面)
  • 数据集Aria-UIOS-Atlas更清晰、对齐更好
    • 数据收集工具:屏幕截图、A11y、HTML等。
  • 轻量级数据质量清洗策略code
    • 使用OmniParser检测屏幕截图上的所有元素
    • 计算bounding box 和 元素的 IoU
    • 过滤掉低阈值IoU的样本

数据清洗示例

  • 蓝色:bounding box 标注
  • 红色:OminiParser检测结果
  • 绿色:未对齐的蓝色标注,会过滤掉

✍️实验设置

实验配置
  • 模型UI-TARSQwen2.5-VL,7B、32B、72B。
  • 训练codeVLM-R1
  • 资源:800张H100,200 iterations.
  • 参数经验
    • 需要使用大Batch size (128)小size(16/32)可能会导致训练不稳定
      • 如:某batch仅包含正确或错误样本,奖励信号坑会消失,导致模型崩溃
    • 每个样本8次rollout增加会导致收益递减
    • 无需使用KL:使用KL会限制在桌面和web端的探索
    • 学习率不敏感1e-6通常都不错。
  • 评测榜单
    • ScreenSpot-V2ScreenSpotProOSWorld-G

🍑关键结果

关键结果
  • 参数经验 📗
    • GRPO 思考不是必须的:效果来自于目标对齐。避免思考和KL约束,坐标预测更准确灵活。
    • Click Reward 已足够
    • 无需SFT冷启动:Qwen2.5-VL、UI-TARS已足够强大,GRPO之前进行SFT不能提升性能
  • Ground-R1 性能出众 🚀 : 7B超过UI-TARS、OpenAI-CUA、Qwen2.5-VL-72B等
  • 是否使用思考进行训练 ​❓ 🤔 ​
    • 静态环境bench:差距不大(0.5%)👿
    • 动态环境bench⭐:思考非常有效 👏 (AndroidWorld)。
      • 因为获得了任务object、历史轨迹、用户指令等,鼓励模型在复杂挑战性动态环境里思考 👍。
      • 使用AndroidControl数据训练7B模型,使用思考后,任务成功率从39%->44%
  • GRPO比SFT效果好(90.2->92.4, 42.5->50.1),前提是基模效果不错GRPO才能提升
    • 若基模差, 可能会因为奖励信号不足而陷入困境

⛳未来方向

未来方向
  • 暂未说明

(2506) Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H

摘要

❓问题背景

Holo1 问题背景
  • 开发自主导航、与网络界面交互的agent,非常有挑战。
  • 在实际网络任务中,LLM受限于成本可访问性网络动态环境的限制。
  • 大多数webagent依赖昂贵的专有模型,限制了实际部署应用。
  • Tool-use Agent 虽能和网络环境交互,但受限于预定义API每个新领域都需要大量工程开销
  • Computer-use Agent直接和图形界面交互。之前大都依赖html/dom解析,面对网站变化和不同平台,就很脆弱。

📕核心方法

Holo1 核心方法

Holo1采用纯视觉方案-网页截图,模仿人类感知交互,具有更好鲁棒性和通用性

3️⃣个训练模块 💡

  • 策略模块(Policy) - 大脑 🧠
    • 功能:充当决策中心分析目标/屏幕截图/历史记忆等,决定下一步做什么,输出具体动作
    • 小动作空间:点击按钮、搜索框输入文字、向上向下滚动页面、等待、刷新、生成答案等。
    • 模型专门的VLM
    • 透明模仿人类的思考过程 🤔 :每个动作之前,会先思考和记笔记 📝,都用文本形式存储下来
      • 方法:CoT、Structure Generation等。
  • 定位器模块(Localizer) - 眼镜和手 👁️ ​ ✋
    • 功能:在屏幕上精准找到位置,返回坐标(x,y),系统才能模拟鼠标去操作正确的地方。
  • 验证器模块(Validator) - 质量检察员 👨‍🔬
    • 功能:大脑给出答案时,验证器做最后把关,检查答案是否正确,是否真的完成用户要求。
  • 还有个Memory模块,不用训练。

Holo1架构如下:

Holo1 数据组成

三大训练数据📚 ,总计31.46B tokens,有深度有广度)

1、GUI Grounding (51%)认识世界、打造AI鼠标

  • Localizer 根据视觉确定需要交互位置,需要精准和智能需要泛化到各种网页上
  • 广度训练 - WebCrawl数据集 (打好地基)
    • 爬取400w网站,让AI“博览群站”
    • 针对超链接、按钮、输入框做意图映射,意图描述通过GPT4等模型来生成。
    • 训练数据:网页截图、意图描述 --> (x, y)
  • 深度训练 -- WebSynthetic 数据集 (难度训练)
    • 针对比较难的场景,人工构建场景数据,做能力优化。
    • 困难场景:日历(动态的、复杂的)表格(二维的,需同时理解行和列)、==图标(非文字)==等。

2、Complex Visual Understanding (32%):复杂视觉理解场景

  • 坐标验证:培养判断力和批判性思维
    • 任务:输入网页截图 + 指令(意图,如登录按钮) + 坐标(x,y),输出 是/否 (坐标是否真的指向该意图)
    • 目的:判断智能体操作是否正确、目标是否准确,提升精确性。
    • 数据:500w对
  • UI提取:培养 全局视野和情境意识
    • 任务:输入网页截图,输出 所有能交互的元素, 元素(位置+标签)
    • 目的:训练policy模块,在做决策前需要知道页面上所有可能性
    • 数量:700w 网页
  • 视觉问答:培养 深度阅读和信息提取能力
    • 任务:输入 复杂图片 + 问题,输出 答案,提取信息来回答问题
    • 目的:让agent完成更高级、更有价值的真实任务
    • 数量:1.5亿tokens、30w张图片

3、Behavior Learning (17%):模仿成功经验来行动和判断

  • 多模态轨迹数据:真实agent执行过程,输入过去的记忆+最近几帧截图,预测== 下一步(思考、笔记、动作)==。
  • 过滤行为克隆:在WebVoyager(643个任务)和WebVoyagerExtended(1.5w个任务)的成功轨迹上训练
  • Validation 学习:100w个输入输出对,用于答案评估和反馈生成。

✍️实验设置

实验配置
  • 模型:Qwen2.5-VL-Instruct-3B/7B
  • 框架:私有框架
  • 任务:每个模型都去训练policy、localizer、validator以及标准VLM能力。

🍑关键结果

关键结果
  • Localization 评估
    • Benchmark:WebClick(新提出)、Screenspot、Screenspot-V2、Screenspot-Pro、GroundUI-Web
    • Holo1-3B/7B,拆过UI-Tars-3B/7B等模型。
  • WebVoyager
    • 性能较好、成本也较低,比同类成本降低4倍。
    • 超越OpenAI Operator(87.0%) 和Project Mariner (83.5%),与BrowserUse(89.1%)持平。

⛳未来方向

未来方向

(2503) 知乎

相关工作

总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026