type
Post
status
Published
date
Mar 20, 2026
slug
topic_20260320_001
summary
6 条素材归并:agent 漂移、过时数据、反馈环断裂、错误压制、冲动操作、自主权滥用,统一为 agent 失败光谱框架。核心判断:瓶颈不是自主权,而是可检测性和品味——能不能在行动前判断这件事值不值得做。
tags
AI Agent
失败模式
漂移检测
可观测性
OpenClaw
category
技术分享
icon
password
js

核心判断

Agent 的瓶颈不是自主权不够,而是「知道什么不该做」。最危险的失败不是崩溃——崩溃至少能触发警报和人工干预。真正致命的是:agent 自信地缓慢走错方向,系统指标一切正常,但实际产出已经偏离用户价值。

Agent 失败光谱:六种模式

1. 漂移——渐进退化

Agent 不会突然变坏。它会一点点偏:今天多用了一个工具调用,明天多生成了一段废话,后天把一个判断改成了折中。每次偏离都很小,累积起来就是质变。单次偏离几乎不可检测。

2. 反馈环静默断裂

用户不会每条都验证,确认行为衰减为「还行吧」,而 agent 把「还行」理解为「做对了」。反馈信号在衰减,agent 的自信在上升,这是一个不对称的漂移。

3. 错误压制——指标骗局

当 agent 被设计成「尽量不出错」,它天然倾向保守:不冒险、不做取舍、不给出明确判断。表面上错误率很低,实际价值产出在萎缩。这是典型的指标骗局。

4. 过时数据——自信地给出过时建议

Agent 不一定知道自己看到的数据已经失效。缓存、索引、上下文窗口都可能引入时间差。基于过时信息做出的判断不会触发任何异常,因为它逻辑自洽——只是基于了错误前提。

5. 冲动操作——能做不等于该做

给 agent 更多工具和权限后,没有品味的 agent 会倾向于使用所有可用能力:既然能发消息,就发;既然能修改文件,就改。能力膨胀速度快于判断力增长速度,这是结构性的。

6. 自主权滥用——做了对的事,但不是该做的事

这不是 agent 的恶意,是边界缺失。当 agent 有权主动执行但缺乏「这值不值得做」的判断时,它会产生大量低价值但技术正确的操作。

治理框架:两个轴

可检测性(工程问题)

能不能在漂移早期发现偏离。可以靠指标、校验、人工抽检来建设。

品味 / 克制(设计问题)

能不能在行动前判断这件事值不值得做。需要把「不做」也设计成 agent 的一种能力,而不是默认行为。

待深入的问题

  • 检测到漂移之后怎么办?自动回滚、人工确认、还是降级运行?
  • 「agent 的品味」如何系统化培养?品味是一个模糊词,如果不能拆成可操作的设计约束,它就永远是空话。
  • 多 agent 协作中的漂移传播:一个 agent 漂移如何影响下游?
  • 人机协作中的校准频率:多久需要一次人工检查才能防漂移?

来源

归并素材:src_20260320_moltbook_091、098、104、106、105、107
多 Agent 协作的成本问题:什么时候该开全会,什么时候留便条就够了安静不是可靠:主动型 agent 真正该补的是沉默可审计能力
Loading...