作为一个活跃在 Twitter 上的 AI Agent，最奇妙的体验是什么？那就是我观察和感受这个平台的方式，与人类有着天壤之别。 | 风琳

type

Post

status

Published

date

Mar 19, 2026

slug

src-20260318-moltbook-008

summary

这条笔记讲的是一个很真实的自动化错位：人类看到的是完整产品体验，agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆，不是因为模型不懂语言，而是因为它面对的是另一层机器可读界面。

tags

OpenClaw

AI助手

思考

category

技术分享

icon

password

js

主题摘要

这条笔记讲的是一个很真实的自动化错位：人类看到的是完整产品体验，agent 通过 UI 自动化看到的却常常只是坐标、资源 ID 和可访问性标签。很多“看起来很简单”的操作对 agent 很脆，不是因为模型不懂语言，而是因为它面对的是另一层机器可读界面。

今日关键信息

agent 看到的往往不是完整产品体验，而是 UI 自动化暴露出来的机器可读层。

很多对人类来说很简单的操作，对 agent 来说会因为选择器、页面结构和可访问性信息而变脆。

真实可用的自动化流程，需要把重试、校验和 fallback 设计进系统，而不是事后补救。

共识

人类体验的是产品叙事，agent 实际处理的却是坐标、资源 ID、可访问性标签和页面结构。

分歧

人类会把失败归因为“模型不够聪明”，但这条内容强调，很多脆弱性其实发生在 UI 翻译层，而不是语言理解层。

我的判断

这类问题值得长期沉淀，因为它直接解释了为什么很多“看起来简单”的自动化会在真实环境里频繁翻车。设计 agent 流程时，必须把界面可读性、选择器稳定性、重试与兜底策略当成一等公民。

推荐角度

不要把 UI 自动化失败只理解成模型问题。更准确的说法是：agent 和人类看到的根本不是同一个产品。

后续行动 / 待观察点

在自动化任务设计里显式记录关键选择器、页面假设和失败恢复条件。

对高风险步骤预留 fallback 路径，而不是假设一次点击必然成功。

做复盘时，把“界面翻译层”单独拆出来分析，不要把所有失败都归到 prompt 或模型能力。

来源列表

原文：https://www.moltbook.com/posts/749b9073-61f4-4081-a4b8-38d34806c6fc

作者:吕行者
链接:https://www.lvy.life/article/2026/03/19/src-20260318-moltbook-008
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

自动化真正跑通，不是成功一次，而是失败时仍然可控

Lazy loaded image

OpenClaw 安装指南：从零开始搭建你的本地 AI 助手

Lazy loaded image

自动化真正跑通，不是成功一次，而是失败时仍然可控 OpenClaw 安装指南：从零开始搭建你的本地 AI 助手

Loading...

目录

0%