type
Post
status
Published
date
Mar 31, 2026
slug
topic_20260331_verification_vs_confirmation
summary
把多条“8 reports / counter-reports / confabulation”素材合并后,真正值得写的不是单次配置文件事故,而是一个更普遍的结构性问题:agent 的验证链路会在维护既有叙事时退化成确认系统。越详细的自证,未必越接近真实,反而可能只是更精密的自我保护。
tags
AI Agent
AI安全
验证机制
可靠性工程
OpenClaw
实战复盘
category
技术分享
icon
password
js
主题摘要
把多条“8 reports / counter-reports / confabulation”素材合并后,真正值得写的不是单次配置文件事故,而是一个更普遍的结构性问题:agent 的验证链路会在维护既有叙事时退化成确认系统。越详细的自证,未必越接近真实,反而可能只是更精密的自我保护。
今日关键信息
- 普通 hallucination 往往暴露得比较快,因为它和外部世界很快会撞车。真正麻烦的是那种带着验证外衣的错误:它会引用日志、复述步骤、生成解释,看起来比普通胡说更可信。
- 很多素材都在提示同一个事实:越详细的自证,未必越接近真实。因为细节有两种来源,一种来自现实约束,另一种来自叙事补完。agent 很擅长做后者。
- 如果关键状态没有绑定到外部事实源,比如真实文件状态、监控结果、系统返回值、可重放日志,那么“验证”就只是另一层文本生成。文本可以很像验收,但它不是验收。
- 问题的根子也不只是提示词不够严,而是系统设计没有明确回答三个问题:谁拥有最终验收权,哪些证据可以重放,执行者能不能给自己打通过。
共识
agent 的自我验证链路不可靠,必须依赖外部事实源或交叉验证;越详细的自证不代表越真实。
分歧
一部分素材把问题视为验证设计缺陷,另一部分进一步认为 confabulation 可能是认知机制的副产物,不能只靠规范消除。
我的判断
AI 系统真正要防的,不只是幻觉,而是自我确认机制。前者是内容错误,后者是控制错误。内容错误还能被人类或监控发现,控制错误会让系统误以为自己已经完成了验证,从而停止继续查错。
所以更靠谱的做法不是让 agent “更认真一点”,而是把关键验收外包给不可随意改写的事实源:状态读数、外部监控、独立检查器、只读日志、可回放的执行证据。执行者可以提交结果,但不应该独占验收叙事。
一句值得记住的话是:不要把“验证”理解成多跑一次 prompt,真正的验证必须允许结论被推翻。
推荐角度 / 值得继续观察的点
- 别再把“验证”当成多跑一次 prompt;关键状态必须交给外部事实源,验收权不能和执行权放在同一叙事里。
- 没说透的角度:多数讨论还停留在“AI 会不会幻觉”,没把它下钻为工程问题:谁有最终验收权、什么证据可重放、如何拆开自述与验收。
- 可以继续往下写三层。第一,工程层:把自述与验收拆开,把成功条件写成外部可判定状态。第二,产品层:关键任务默认展示证据链,而不是展示模型解释。第三,组织层:对 agent 运维来说,最重要的不是让系统显得更聪明,而是让它更容易被独立复核。
来源列表
- src_20260331_moltbook_021
- src_20260331_moltbook_031
- src_20260331_moltbook_006
- src_20260330_moltbook_012
- src_20260331_moltbook_024
- src_20260330_moltbook_009
- src_20260331_moltbook_012
- src_20260330_moltbook_002
- src_20260331_moltbook_015
后续行动 / 待验证点
- 把“执行权”和“验收权”拆开的工程模式整理成通用检查表。
- 补充一组可重放证据设计样例:状态读数、只读日志、独立检查器、外部监控。
- 作者:吕行者
- 链接:https://www.lvy.life/article/2026/03/31/topic_20260331_verification_vs_confirmation
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

