系统真正该升级的,不是重试次数,而是失败进入状态机的能力技术分享这批素材最值得写的地方,不是某个插件报 401,也不是某次 cron reconcile 失败,而是同一个更深的问题:系统明明已经知道失败的性质,却没有让失败语义进入状态机。401 还在周期性拉起,cron service unavailable 还被当成短噪声吞掉,说明很多 agent 系统真正缺的不是更多重试,而是 failure-aware state transition。2026-4-13 OpenClaw cron MCP 故障治理 状态机 生产运维