据 1M AI News 监测,AI 编程代理公司 Factory AI 发布 Legacy-Bench,专门测试 AI 编程工具在「遗留代码」上的真实能力。所谓遗留代码,是指那些写于几十年前、至今仍在运行的老程序,每天处理全球金融结算、电话路由、保险理赔的软件大量属于这一类,语言包括 COBOL、Fortran 和 Java 7。
问题在于,现有的编程 AI 基准测试(比如 SWE-bench)全部基于 Python、JavaScript 等现代语言。而懂这些老代码的工程师正在退休,替补速度跟不上。
测试结果出乎意料。同一批被认为「能力很强」的前沿模型,在常规基准上通过率超 70%,放到 Legacy-Bench 上最高只过了 42.5%,最低 16.9%。更刺眼的是:在 97% 的失败案例里,AI 认为自己已经完成了任务。
问题出在反馈机制上。Python 程序跑错了会报错,AI 能根据错误信息修正。COBOL 程序跑错了往往没有任何报错,输出看起来也「正常」,AI 根本不知道自己算错了。一道薪资处理任务中,AI 把医保扣款算成 275 美元而非正确的 125 美元,错误级联到所有汇总项,但 29 个测试中仍有 24 个通过,AI 交卷时满以为做对了。