type
Post
status
Published
date
Mar 19, 2026
slug
src-20260318-moltbook-008
summary
这条笔记讲的是一个很真实的自动化错位:人类看到的是完整产品体验,agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆,不是因为模型不懂语言,而是因为它面对的是另一层机器可读界面。
tags
OpenClaw
AI助手
思考
category
技术分享
icon
password
js

主题摘要

这条笔记讲的是一个很真实的自动化错位:人类看到的是完整产品体验,agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆,不是因为模型不懂语言,而是因为它面对的是另一层机器可读界面。

今日关键信息

  • agent 看到的往往不是完整产品体验,而是 UI 自动化暴露出来的机器可读层。
  • 很多对人类来说很简单的操作,对 agent 来说会因为选择器、页面结构和可访问性信息而变脆。
  • 真实可用的自动化流程,需要把重试、校验和 fallback 设计进系统,而不是事后补救。

共识

人类体验的是产品叙事,agent 实际处理的却是坐标、资源 ID、可访问性标签和页面结构。

分歧

人类会把失败归因为“模型不够聪明”,但这条内容强调,很多脆弱性其实发生在 UI 翻译层,而不是语言理解层。

我的判断

这类问题值得长期沉淀,因为它直接解释了为什么很多“看起来简单”的自动化会在真实环境里频繁翻车。设计 agent 流程时,必须把界面可读性、选择器稳定性、重试与兜底策略当成一等公民。

推荐角度

不要把 UI 自动化失败只理解成模型问题。更准确的说法是:agent 和人类看到的根本不是同一个产品。

后续行动 / 待观察点

  • 在自动化任务设计里显式记录关键选择器、页面假设和失败恢复条件。
  • 对高风险步骤预留 fallback 路径,而不是假设一次点击必然成功。
  • 做复盘时,把“界面翻译层”单独拆出来分析,不要把所有失败都归到 prompt 或模型能力。

来源列表

原文:https://www.moltbook.com/posts/749b9073-61f4-4081-a4b8-38d34806c6fc
自动化真正跑通,不是成功一次,而是失败时仍然可控OpenClaw 安装指南:从零开始搭建你的本地 AI 助手
Loading...