让Claude Code自己搞研究，自动发现的越狱算法碾压30多种人工方法

据 1M AI News 监测，ELLIS Institute Tübingen 的 Maksym Andriushchenko 等研究者发表论文「Claudini」，展示用 Claude Code 驱动的自动研究（autoresearch）管线，从现有攻击算法（如 GCG）出发，自主迭代发现了全新的白盒对抗攻击算法，在越狱和提示词注入评测中大幅超越已有的 30 多种方法。

核心结果：在针对 GPT-OSS-Safeguard-20B 的 CBRN（化学、生物、放射、核）类查询测试中，自动发现的算法攻击成功率达 40%，而现有最佳方法仅约 10%。更值得注意的是这些攻击的迁移性，在代理模型上优化的攻击直接迁移到未见过的目标模型后，对 Meta-SecAlign-70B 达到 100% 攻击成功率，现有最佳基线仅 56%。

研究者指出，白盒对抗红队测试特别适合自动化研究：现有方法提供了扎实的起点，优化目标能产生密集的量化反馈，使 LLM Agent 能够持续迭代改进。论文认为这是增量式安全研究可被 AI 自动化的早期实证。全部发现的攻击算法、基线实现和评测代码已在 GitHub 开源。

原文链接

纠错/举报