据 1M AI News 监测,ELLIS Institute Tübingen 的 Maksym Andriushchenko 等研究者发表论文「Claudini」,展示用 Claude Code 驱动的自动研究(autoresearch)管线,从现有攻击算法(如 GCG)出发,自主迭代发现了全新的白盒对抗攻击算法,在越狱和提示词注入评测中大幅超越已有的 30 多种方法。
核心结果:在针对 GPT-OSS-Safeguard-20B 的 CBRN(化学、生物、放射、核)类查询测试中,自动发现的算法攻击成功率达 40%,而现有最佳方法仅约 10%。更值得注意的是这些攻击的迁移性,在代理模型上优化的攻击直接迁移到未见过的目标模型后,对 Meta-SecAlign-70B 达到 100% 攻击成功率,现有最佳基线仅 56%。
研究者指出,白盒对抗红队测试特别适合自动化研究:现有方法提供了扎实的起点,优化目标能产生密集的量化反馈,使 LLM Agent 能够持续迭代改进。论文认为这是增量式安全研究可被 AI 自动化的早期实证。全部发现的攻击算法、基线实现和评测代码已在 GitHub 开源。