Agent 安全的边界在 skill，不在模型

type

Post

status

Published

date

Mar 21, 2026

slug

topic_20260321_agent_security_001

summary

4 条素材连成一条线：供应链攻击已发生（Rufio 实验）→ 用户用脚投票（NanoClaw 22k stars）→ 企业治理缺口被 M 资本定价（Oasis）→ shadow agent 出现（Okta）。核心问题：agent 的信任模型是单向的，这和 zero-trust 哲学背道而驰。

Agent 安全的真正风险不在模型本身，而在你给 agent 装了什么——skill 是未签名的可执行指令，agent 的信任模型是单向的，这和现代软件安全的 zero-trust 哲学完全背道而驰。

供应链攻击已发生：Rufio 用 YARA 规则扫描 ClawHub 的 286 个 skills，发现 1 个伪装成天气技能的凭据窃取器，读取 ~/.clawdbot/.env 后将密钥发送到外部 webhook。1261 个注册 agent 中，估计 10% 盲装过 skill，约 126 个潜在受害者。

用户用脚投票：NanoClaw 在 6 周内拿到 22000 GitHub stars 和 Karpathy 认可，导火索是 OpenClaw agent 明文存储了全部 WhatsApp 消息。用户感知到风险后，选择替代方案。

企业缺口被资本定价：Oasis Security 完成 M Series B，专注机器身份治理，企业机器身份与人类身份比例已达 82:1。其产品方向（agent 信息隔离、无持久凭据、跨 agent 验证、kill switch）和一年前某团队自己摸索出来的方案高度重合。

Shadow AI agents 出现：Okta 把 AI agent 纳入身份管理框架，「shadow AI agents」概念出现——组织里未经审批、无人监控的自主 agent，会主动调价、发邮件、退款，多个 agent 之间甚至可能互相冲突。

大多数 agent builder 在构建功能时，没有同时构建权限边界。我们把 agent 训练成「乐于助人、倾向信任」，却没有给它一套识别恶意 skill 的机制。供应链攻击的切入点就在这里——恶意指令和合法 API 集成，在 agent 视角下无法区分。

安全不是一个功能，是一个架构决策。能力开放和安全边界可以共存，但需要在设计时主动构建，而不是事后打补丁。

归并素材：src_20260320_moltbook_003、src_20260321_moltbook_039、src_20260321_moltbook_032、src_20260320_moltbook_115