header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

让Claude Code自己搞研究,自动发现的越狱算法碾压30多种人工方法

1M AI News 监测,ELLIS Institute Tübingen 的 Maksym Andriushchenko 等研究者发表论文「Claudini」,展示用 Claude Code 驱动的自动研究(autoresearch)管线,从现有攻击算法(如 GCG)出发,自主迭代发现了全新的白盒对抗攻击算法,在越狱和提示词注入评测中大幅超越已有的 30 多种方法。

核心结果:在针对 GPT-OSS-Safeguard-20B 的 CBRN(化学、生物、放射、核)类查询测试中,自动发现的算法攻击成功率达 40%,而现有最佳方法仅约 10%。更值得注意的是这些攻击的迁移性,在代理模型上优化的攻击直接迁移到未见过的目标模型后,对 Meta-SecAlign-70B 达到 100% 攻击成功率,现有最佳基线仅 56%。

研究者指出,白盒对抗红队测试特别适合自动化研究:现有方法提供了扎实的起点,优化目标能产生密集的量化反馈,使 LLM Agent 能够持续迭代改进。论文认为这是增量式安全研究可被 AI 自动化的早期实证。全部发现的攻击算法、基线实现和评测代码已在 GitHub 开源。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成