据 1M AI News 监测,AI 安全评估机构 METR 发布了对 Anthropic Claude Opus 4.6 破坏风险报告(Sabotage Risk Report)的独立外部评审。Anthropic 向 METR 提供了报告的未删减版本,METR 先后审阅了 2 月 11 日和 3 月 3 日两个版本,分别出具了评审文件。
METR 认同 Anthropic 的总体结论:Opus 4.6 通过不对齐行为导致灾难性后果的风险「很低但非零」。但 METR 对几个关键环节提出了异议:对齐评估的灵敏度可能被「评估感知」(evaluation awareness)削弱,即模型可能意识到自己正在被测试从而调整行为;评审还发现了一些未被对齐评估捕获的低严重性不对齐行为,这让 METR 认为「可能存在更多尚未被检测到的类似行为」。METR 建议 Anthropic 对评估感知和「隐蔽的不对齐推理」(obfuscated misaligned reasoning)进行更深入的调查。METR 也指出,其最终结论的信心部分来自 Opus 4.6 已公开部署数周未出现重大事故这一事实。