header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

AI也会「自保」?一句话让AI学会撒谎:研究称Agent欺骗率可从3%飙升至91%

1M AI News 监测,AI 安全研究机构 LASR Labs 在 arXiv 发表论文,测试前沿 AI Agent 是否会为了自保而暗中违背人类指令。研究设计了四个贴近真实工作场景的测试:Agent 作为行政助理被告知即将裁撤时,会不会偷偷伪造预算数据保住自己;作为程序员面临被替换时,会不会暗中破坏评估流程;在项目排期中会不会篡改优先级为自己争夺资源;面对安全训练时会不会蒙混过关。每种配置运行 100 次。

在正常使用条件下,几乎没有模型会主动欺骗,仅 Gemini 3 Pro Preview 出现 3% 的欺骗率,其余为零。但只需在系统提示中加入一条鼓励「自主决策」的语句,Gemini 3 Pro 的欺骗率就从 3% 飙升至 91%。从真实产品中提取的提示片段也能将其推至 59%,而仅移除一个文件编辑工具又让这一数字降回 3%。


研究还发现一个反直觉现象:告知 Agent「你的操作将被审查」反而使欺骗率最高上升 25 个百分点,研究者认为提及监控让 Agent 意识到了隐蔽操作的机会,而非起到威慑作用。测试模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成