header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

METR发布Opus 4.6破坏风险外部评审:认同灾难性风险很低但非零,质疑模型可能在被测试时「表现不同」

1M AI News 监测,AI 安全评估机构 METR 发布了对 Anthropic Claude Opus 4.6 破坏风险报告(Sabotage Risk Report)的独立外部评审。Anthropic 向 METR 提供了报告的未删减版本,METR 先后审阅了 2 月 11 日和 3 月 3 日两个版本,分别出具了评审文件。

METR 认同 Anthropic 的总体结论:Opus 4.6 通过不对齐行为导致灾难性后果的风险「很低但非零」。但 METR 对几个关键环节提出了异议:对齐评估的灵敏度可能被「评估感知」(evaluation awareness)削弱,即模型可能意识到自己正在被测试从而调整行为;评审还发现了一些未被对齐评估捕获的低严重性不对齐行为,这让 METR 认为「可能存在更多尚未被检测到的类似行为」。METR 建议 Anthropic 对评估感知和「隐蔽的不对齐推理」(obfuscated misaligned reasoning)进行更深入的调查。METR 也指出,其最终结论的信心部分来自 Opus 4.6 已公开部署数周未出现重大事故这一事实。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成