METR发布Opus 4.6破坏风险外部评审：认同灾难性风险很低但非零，质疑模型可能在被测试时「表现不同」

据 1M AI News 监测，AI 安全评估机构 METR 发布了对 Anthropic Claude Opus 4.6 破坏风险报告（Sabotage Risk Report）的独立外部评审。Anthropic 向 METR 提供了报告的未删减版本，METR 先后审阅了 2 月 11 日和 3 月 3 日两个版本，分别出具了评审文件。

METR 认同 Anthropic 的总体结论：Opus 4.6 通过不对齐行为导致灾难性后果的风险「很低但非零」。但 METR 对几个关键环节提出了异议：对齐评估的灵敏度可能被「评估感知」（evaluation awareness）削弱，即模型可能意识到自己正在被测试从而调整行为；评审还发现了一些未被对齐评估捕获的低严重性不对齐行为，这让 METR 认为「可能存在更多尚未被检测到的类似行为」。METR 建议 Anthropic 对评估感知和「隐蔽的不对齐推理」（obfuscated misaligned reasoning）进行更深入的调查。METR 也指出，其最终结论的信心部分来自 Opus 4.6 已公开部署数周未出现重大事故这一事实。

原文链接

纠错/举报