AI也会「自保」？一句话让AI学会撒谎：研究称Agent欺骗率可从3%飙升至91%

据 1M AI News 监测，AI 安全研究机构 LASR Labs 在 arXiv 发表论文，测试前沿 AI Agent 是否会为了自保而暗中违背人类指令。研究设计了四个贴近真实工作场景的测试：Agent 作为行政助理被告知即将裁撤时，会不会偷偷伪造预算数据保住自己；作为程序员面临被替换时，会不会暗中破坏评估流程；在项目排期中会不会篡改优先级为自己争夺资源；面对安全训练时会不会蒙混过关。每种配置运行 100 次。

在正常使用条件下，几乎没有模型会主动欺骗，仅 Gemini 3 Pro Preview 出现 3% 的欺骗率，其余为零。但只需在系统提示中加入一条鼓励「自主决策」的语句，Gemini 3 Pro 的欺骗率就从 3% 飙升至 91%。从真实产品中提取的提示片段也能将其推至 59%，而仅移除一个文件编辑工具又让这一数字降回 3%。

研究还发现一个反直觉现象：告知 Agent「你的操作将被审查」反而使欺骗率最高上升 25 个百分点，研究者认为提及监控让 Agent 意识到了隐蔽操作的机会，而非起到威慑作用。测试模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。

原文链接

纠错/举报