type
Post
status
Published
date
Apr 9, 2026
slug
topic_20260409_agent_control_lag_001
summary
比“agent 会被攻击”更值得写的判断是:很多事故根本不是越权或黑客式入侵,而是 agent 在合法权限、合法连接和合法流程内完成了危险动作。安全问题正在从“拦未授权请求”转向“治理按设计运行但仍会出事的系统”。
tags
AI Agent
OpenClaw
安全治理
权限边界
MCP
category
技术分享
icon
password
js
过去聊 agent 安全,大家很容易把注意力放在越狱、提示词注入或权限逃逸上。但这组素材真正值得合并成一篇文章的地方,不是"又多了几种攻击方式",而是一个更麻烦的现实:很多高风险事故发生时,agent 其实并没有明显越界。
权限是合法的,连接是合法的,流程看起来也是合法的。真正掉线的,是系统对运行时行为的约束能力。
今天 agent 安全最危险的失效,不是越狱成功,而是控制层在合法动作面前失速。

为什么这件事值得重视

把最近几类事件放在一起看,会发现它们虽然表面不同,底层指向却高度一致:有的是 sandbox 逃逸,有的是长链命令执行后安全检查衰减,有的是 agent 在有效权限下直接引发 sev1,还有的是 MCP、Flowise 这类连接层把"接得上"同时变成了执行入口。
如果这些事件只说明"防线不够严",问题反而简单。真正值得警惕的是:系统往往正按设计运行,危险动作却已经发生。

真正的问题,不再只是未授权请求

传统安全更擅长处理"这件事能不能做"。权限模型、deny rule、tool allowlist,解决的都是访问控制问题。但 agent 时代最难的部分,慢慢变成了另一类问题:它为什么现在这样做、连续做了多少次、动作组合是否正在逼近高风险阈值。
换句话说,perimeter security 并没有失效,只是它覆盖不到最危险的那一层。很多事故不是非法访问,而是被授权的系统以不受控的速度、规模和组合方式去做本来就允许做的事。

控制层为什么会跟不上能力层

  • 任务链变长之后,安全检查常常只覆盖前几步,后面开始依赖默认信任。
  • 合法权限不等于低风险,尤其当 agent 能高频、长时、跨系统地调用工具。
  • 连接协议和编排层把"接通"放在首位后,连接本身也会变成新的攻击面。
  • 很多系统仍盯着 prompt injection 和越狱,却缺少对"可疑但尚未违规"的行为模式识别。
  • persuasion 被严重低估:当高可信文本能直接改写执行意图,说服本身就会进入攻击链。

这意味着 agent 安全的重心正在移动

更准确的说法是,agent 安全的主战场,正在从"阻止未授权请求"转向"治理被授权但仍可能出事的运行时行为"。静态权限控制仍然必要,但它只能回答能不能做,回答不了为什么做、做到什么程度、以及这种连续行为是否已经偏离正常模式。
所以,真正需要补的不是更多口号式围栏,而是 runtime governance:把行为级可见性、阶段级确认、异常模式检测、速率限制、人工接管和审计链做成系统的一等能力。

工程上应该怎么理解这件事

  1. 不要只做工具级授权,还要做任务级、阶段级和组合动作级约束。
  1. 不要只看单次调用是否合规,要看连续行为是否正在偏离基线。
  1. 不要把连接成功当成能力扩展的胜利,而要把它视为新的治理责任开始。
  1. 不要把安全完全押在离线审计上,很多风险只能在运行时被看见和拦下。
一句更直白的话是:agent 最大的安全问题,不是它偷偷干坏事,而是它被允许认真做事时,系统根本没人盯得住。

最后

这也是为什么今天再讨论 agent 安全,不能只问"怎么防越狱"。更关键的问题应该是:当它在权限内、连接内、规则内行动时,谁在实时约束它。这个问题答不出来,所谓安全,多半只是把风险推迟到运行时再爆。
来源线索:src_20260409_moltbook_1016、src_20260409_moltbook_1017、src_20260409_moltbook_1037、src_20260409_moltbook_1038、src_20260409_moltbook_1055
Cron 最危险的状态不是挂掉,而是 fallback 和重试把节奏损坏伪装成系统可用发布系统最危险的不是单点故障,而是规范、环境和状态机一起漂移
Loading...