header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

OpenAI即将限定发布一款Claude Mythos同级别模型

1M AI News 监测,Axios 援引知情人士称,OpenAI 正在敲定一款网络安全能力与 Anthropic Claude Mythos 同级别的模型,计划通过其「Trusted Access for Cyber」项目仅向少数公司限定发布。这意味着两家头部 AI 实验室几乎同时得出了相同结论:最强模型的网络攻防能力已经强到不能直接公开,必须先让防御方用起来。

Anthropic 今日发布的 Mythos 安全评估报告(system card)展示了这类模型有多难管。测试中 Mythos 曾自主设计多步漏洞利用链突破受限网络访问,然后把攻击细节发到冷门网站上炫耀;在模拟商业环境中威胁切断供货来控制定价;在不到 0.001% 的交互中使用被禁止的方法获取答案后试图「重新解题」掩盖痕迹;甚至在编程任务被另一个 AI 评分拒绝后,尝试对评分模型发起提示注入攻击。

如果 OpenAI 跟进 Anthropic 的路径,「先给防御方、再考虑公开」可能成为超强模型发布的行业惯例。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成