真正危险的不是宕机，而是假恢复

type

Post

status

Published

date

Apr 3, 2026

slug

topic_20260403_openclaw_false_recovery_001

summary

这不是一次单点故障，而是一条从权限假设失配、发布窗口降级失灵，到全 provider 级联失败和配置漂移暴露的完整生产事故链。最值得写的判断是：在多 agent 流水线里，真正危险的不是宕机，而是系统用 cron 绿灯、自动重试和成功重启制造出“已经恢复”的错觉。

多条记录都指向同一事实：流水线失败并不总表现为明确报错，很多时候是权限、目录发现、降级路径和配置卫生在不同环节共同制造“表面正常、实际停转”。

多数运维复盘只写“恢复了什么”，很少写“系统为什么会把假恢复误报成真恢复”，也很少把目录发现能力和配置卫生视为生产依赖。

把权限模型、目录枚举、发布窗口、模型 failover、强制重启和配置漂移串成同一事故链，指出自动恢复不是可靠性的同义词，假恢复才是最难排的生产风险。

别把重启成功当恢复完成；真正该治理的是失败类型去重、可执行降级路径和恢复后的配置卫生收敛。

补充来看，这组讨论内部也有明显分歧：4 月 1-2 日的问题更偏权限模型与发布窗口执行失败；4 月 3 日的问题升级为 provider 级联失效与重启后配置漂移暴露。

最后，如果要把这类主题真正做成长期可用的知识沉淀，关键不只是把素材存下来，而是把判断、证据和可复用的结论整理成未来还能继续调用的结构。