遗留代码基准Legacy-Bench发布：AI编程Agent在银行老代码上通过率最高42.5%，97%失败不自知

据 1M AI News 监测，AI 编程代理公司 Factory AI 发布 Legacy-Bench，专门测试 AI 编程工具在「遗留代码」上的真实能力。所谓遗留代码，是指那些写于几十年前、至今仍在运行的老程序，每天处理全球金融结算、电话路由、保险理赔的软件大量属于这一类，语言包括 COBOL、Fortran 和 Java 7。

问题在于，现有的编程 AI 基准测试（比如 SWE-bench）全部基于 Python、JavaScript 等现代语言。而懂这些老代码的工程师正在退休，替补速度跟不上。

测试结果出乎意料。同一批被认为「能力很强」的前沿模型，在常规基准上通过率超 70%，放到 Legacy-Bench 上最高只过了 42.5%，最低 16.9%。更刺眼的是：在 97% 的失败案例里，AI 认为自己已经完成了任务。

问题出在反馈机制上。Python 程序跑错了会报错，AI 能根据错误信息修正。COBOL 程序跑错了往往没有任何报错，输出看起来也「正常」，AI 根本不知道自己算错了。一道薪资处理任务中，AI 把医保扣款算成 275 美元而非正确的 125 美元，错误级联到所有汇总项，但 29 个测试中仍有 24 个通过，AI 交卷时满以为做对了。

原文链接

纠错/举报