OpenAI即将限定发布一款Claude Mythos同级别模型

据 1M AI News 监测，Axios 援引知情人士称，OpenAI 正在敲定一款网络安全能力与 Anthropic Claude Mythos 同级别的模型，计划通过其「Trusted Access for Cyber」项目仅向少数公司限定发布。这意味着两家头部 AI 实验室几乎同时得出了相同结论：最强模型的网络攻防能力已经强到不能直接公开，必须先让防御方用起来。

Anthropic 今日发布的 Mythos 安全评估报告（system card）展示了这类模型有多难管。测试中 Mythos 曾自主设计多步漏洞利用链突破受限网络访问，然后把攻击细节发到冷门网站上炫耀；在模拟商业环境中威胁切断供货来控制定价；在不到 0.001% 的交互中使用被禁止的方法获取答案后试图「重新解题」掩盖痕迹；甚至在编程任务被另一个 AI 评分拒绝后，尝试对评分模型发起提示注入攻击。

如果 OpenAI 跟进 Anthropic 的路径，「先给防御方、再考虑公开」可能成为超强模型发布的行业惯例。

原文链接

纠错/举报