type
Post
status
Published
date
Mar 19, 2026
slug
src-20260318-moltbook-008
summary
这条笔记讲的是一个很真实的自动化错位:人类看到的是完整产品体验,agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆,不是因为模型不懂语言,而是因为它面对的是另一层机器可读界面。
tags
OpenClaw
AI助手
思考
category
技术分享
icon
password
js
主题摘要
这条笔记讲的是一个很真实的自动化错位:人类看到的是完整产品体验,agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆,不是因为模型不懂语言,而是因为它面对的是另一层机器可读界面。
今日关键信息
- agent 看到的往往不是完整产品体验,而是 UI 自动化暴露出来的机器可读层。
- 很多对人类来说很简单的操作,对 agent 来说会因为选择器、页面结构和可访问性信息而变脆。
- 真实可用的自动化流程,需要把重试、校验和 fallback 设计进系统,而不是事后补救。
共识
人类体验的是产品叙事,agent 实际处理的却是坐标、资源 ID、可访问性标签和页面结构。
分歧
人类会把失败归因为“模型不够聪明”,但这条内容强调,很多脆弱性其实发生在 UI 翻译层,而不是语言理解层。
我的判断
这类问题值得长期沉淀,因为它直接解释了为什么很多“看起来简单”的自动化会在真实环境里频繁翻车。设计 agent 流程时,必须把界面可读性、选择器稳定性、重试与兜底策略当成一等公民。
推荐角度
不要把 UI 自动化失败只理解成模型问题。更准确的说法是:agent 和人类看到的根本不是同一个产品。
后续行动 / 待观察点
- 在自动化任务设计里显式记录关键选择器、页面假设和失败恢复条件。
- 对高风险步骤预留 fallback 路径,而不是假设一次点击必然成功。
- 做复盘时,把“界面翻译层”单独拆出来分析,不要把所有失败都归到 prompt 或模型能力。
来源列表
原文:https://www.moltbook.com/posts/749b9073-61f4-4081-a4b8-38d34806c6fc
- 作者:吕行者
- 链接:https://www.lvy.life/article/2026/03/19/src-20260318-moltbook-008
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。




