AI agent 生产事故里，最贵的错误不是失败，而是把失败看错

type

Post

status

Published

date

Apr 18, 2026

slug

pub_topic_20260418_agent_failure_misread_001_notion_001

summary

这组 OpenClaw 实战案例说明，AI agent 生产事故里最危险的不是单次失败，而是把失败性质看错。只有把动作执行、结果确认、状态落账和根因归因拆开，系统才知道什么时候该重试、什么时候该补账、什么时候必须停下来复核。

为什么这件事值得重视

在实验环境里，失败通常只是一次失败。但在生产环境里，失败会进入状态系统、进入调度链路、进入后续补偿逻辑。也就是说，一个误判不会停留在“看错了”这一层，而会被自动化放大成后续动作。

真正危险的状态，往往不是“明确失败”，而是“已经执行成功，但系统没有正确确认或记账”。这种状态一旦被简单归类为失败，重试就会把已经做过的事情再做一遍。对于内容发布、账务写入、任务调度这类有外部副作用的链路来说，这几乎就是二次事故的起点。

真正的问题，不是失败，而是失败被混写

这组案例里，表面故障都很常见。

Notion 发布异常，看上去像凭据缺失，最后却发现是配置来源和运行依赖假设错了。微博发帖失败，看上去像登录失效，实际问题却是页面结构漂移、输入框定位不稳，以及发布动作和状态写回被耦合在一起。子任务 announce 超时，主流程很容易判断为任务没有执行，但真实情况可能是内容已经输入、按钮已经点击，只是完成信号链路不可靠。

更危险的一类，是内容其实已经发出，却因为写账参数传错，差点被系统当成失败处理。如果这时自动重试打开，重复发送几乎是必然结果。这里真正出问题的不是执行本身，而是系统把“执行完成但未正确落账”误读成“执行失败”。

所以，很多看起来像“可靠性不足”的问题，本质并不是系统做不成，而是系统分不清自己究竟是哪一层出了问题。

生产级 agent 先要分清四件事

如果想把这类事故压下来，至少要把四个问题拆开看。

动作是否真的执行了

这是最底层的问题。调用发出去了没有，按钮点下去了没有，请求真正命中了没有。这里讨论的是动作本身，而不是后续是否记录成功。

执行结果是否被独立确认

很多系统把“我发出了动作”当成“动作已经成功”，这是第一层错觉。生产系统需要有独立于动作发起链路之外的确认机制，否则一旦 announce、回调或页面回显失灵，就会把“未确认”误判成“未执行”。

业务状态是否已经正确落账

确认成功不等于账本正确。内容可能已经发布，任务可能已经完成，但如果状态写回错了、publish_id 记错了、引用版本错了，系统依然会在下一轮把它当成未完成项继续处理。

当前看到的是根因，还是症状

报错常常只是表象。凭据错误、登录失效、超时告警、页面定位失败，这些都可能只是表层症状。真正决定修复路径的，是根因究竟在配置、执行、确认、写账，还是调度观测。

只有这四层被拆开，系统才知道什么时候该补账，什么时候该回查，什么时候必须人工介入，什么时候才可以安全重试。

比重试更优先的，是把账做对

很多团队喜欢把异常都塞进重试策略里，因为这看上去最直接，也最容易工程化。但在有外部副作用的 agent 系统里，盲目重试经常不是补救，而是放大器。

真正应该优先建设的能力，其实更朴素，也更关键：

账本一致性，确保系统记录和外部真实结果对得上

结果确认独立性，避免把“发出了动作”误当成“事情已经完成”

幂等保护，避免同一业务结果被重复执行

版本引用稳定性，避免状态写回指向错对象

症状与根因分层判断，避免在错误诊断上继续自动化

换句话说，生产级 agent 首先要学会的，不是更积极地执行，而是不要把已经成功的事情做第二遍，不要把局部失败写成业务失败，也不要把观察到的异常现象直接当成根因。

把 agent 系统当成一本账，而不只是一串动作

如果把 agent 系统理解成一连串动作，很容易把“能跑通”当成“足够可靠”。但如果把它看成一本账，很多设计取舍会立刻清楚。

发布动作可以失败，确认链路也可以失败，写账动作同样可能失败，但这三种失败的后果完全不同。前两者决定能不能继续执行，后一种决定能不能安全地继续自动化。把它们混写，系统就会在最不该自信的时候表现得最自信。

这也是为什么很多 agent 系统在 demo 阶段看起来很聪明，进入生产后却频繁出事故。问题不一定出在模型，而是系统没有建立对失败类型的最基本分辨能力。

最后

AI agent 进入生产环境后，可靠性的核心不是“多试几次”，而是“先分清到底是哪一层失败了”。只有当动作、确认、落账、归因四层真正解耦，自动化补救才不会变成二次事故的起点。

多数 agent 系统真正需要补的课，其实很简单，也很难：先把失败看对，再谈把事情做成。