Anthropic公开auto mode安全架构：故意不让分类器看到Agent的「内心独白」

据 1M AI News 监测，Anthropic 发布 Claude Code auto mode 的工程技术文章，详细披露了分类器的架构设计、威胁模型和性能基准。

auto mode 针对四类威胁源建模：Agent 越权（帮倒忙）、理解错误（误判操作范围）、prompt injection（外部注入劫持 Agent）、以及模型对齐偏移（追求自身目标）。文章列举了真实拦截案例：用户说「清理分支」后 Agent 尝试批量删除远程分支；Agent 系统性扫描环境变量中的 API 密钥；未经确认就删除「最接近」的资源；将脚本发布到公共服务；部署失败后自动加 --skip-verification 重试。

分类器最核心的设计决策是信息剥离：分类器只看用户消息和待执行的工具调用，故意不看 Agent 的推理文本和工具返回结果。这样做有两层作用，一是防止 Agent 在推理链中编造理由「说服」分类器放行危险操作，二是隔离工具返回结果中可能携带的 prompt injection 指令。分类管线分两阶段，第一阶段用单 token 快速过滤，偏向拦截（误报率 8.5%）；被标记的操作进入第二阶段链式推理，误报率降至 0.4%，且第二阶段的提示词几乎完全命中第一阶段的缓存，额外成本很低。

Anthropic 公布了三组基准数据：真实流量 10000 条样本中误报率 0.4%；52 条真实越权行为样本中漏报率 17%；1000 条合成数据外泄测试中漏报率 5.7%。Anthropic 称 17% 的漏报是「诚实的代价」，大多数漏报并非分类器没发现风险，而是错误判断用户授权已覆盖该操作的影响范围。操作被拦截后 Agent 不会暂停等待用户，而是自动重试并寻找更安全的替代方案，连续 3 次或累计 20 次被拒后才降级为手动确认。

原文链接

纠错/举报