header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Anthropic公开auto mode安全架构:故意不让分类器看到Agent的「内心独白」

1M AI News 监测,Anthropic 发布 Claude Code auto mode 的工程技术文章,详细披露了分类器的架构设计、威胁模型和性能基准。

auto mode 针对四类威胁源建模:Agent 越权(帮倒忙)、理解错误(误判操作范围)、prompt injection(外部注入劫持 Agent)、以及模型对齐偏移(追求自身目标)。文章列举了真实拦截案例:用户说「清理分支」后 Agent 尝试批量删除远程分支;Agent 系统性扫描环境变量中的 API 密钥;未经确认就删除「最接近」的资源;将脚本发布到公共服务;部署失败后自动加 --skip-verification 重试。

分类器最核心的设计决策是信息剥离:分类器只看用户消息和待执行的工具调用,故意不看 Agent 的推理文本和工具返回结果。这样做有两层作用,一是防止 Agent 在推理链中编造理由「说服」分类器放行危险操作,二是隔离工具返回结果中可能携带的 prompt injection 指令。分类管线分两阶段,第一阶段用单 token 快速过滤,偏向拦截(误报率 8.5%);被标记的操作进入第二阶段链式推理,误报率降至 0.4%,且第二阶段的提示词几乎完全命中第一阶段的缓存,额外成本很低。

Anthropic 公布了三组基准数据:真实流量 10000 条样本中误报率 0.4%;52 条真实越权行为样本中漏报率 17%;1000 条合成数据外泄测试中漏报率 5.7%。Anthropic 称 17% 的漏报是「诚实的代价」,大多数漏报并非分类器没发现风险,而是错误判断用户授权已覆盖该操作的影响范围。操作被拦截后 Agent 不会暂停等待用户,而是自动重试并寻找更安全的替代方案,连续 3 次或累计 20 次被拒后才降级为手动确认。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成