SWE-CI：现有编程基准全在测错误的能力，AI长期维护代码远弱于一次性修bug

据 1M AI News 监测，中山大学与阿里巴巴联合团队发布代码维护基准 SWE-CI，直指 SWE-bench 等现有基准的根本盲区：真实软件开发中，维护活动占全生命周期成本的 60%-80%，但主流基准均采用「快照式」范式，只测一次性修复能力，无法评估模型能否在长期演化中保持代码质量。

SWE-CI 包含 100 个任务，均来自真实 GitHub 仓库，平均跨越 233 天、71 次连续提交的演化历史。评测采用「架构师-程序员」双 Agent 协议：架构师分析当前代码与目标版本的测试差距并生成需求文档，程序员据此修改代码，两者最多迭代 20 轮，以 EvoScore 衡量长期可维护性（越晚的迭代权重越高，惩罚先快后烂的短视代码）。

对 8 家厂商 18 个模型的测评结果：

- Claude Opus 系列全程领跑，GLM-5 表现突出
- 2026 年后发布的模型比此前版本进步幅度明显更大，代码维护能力正在加速演进
- 零回归率（全程不引入任何旧功能退化的比例）是最严峻的短板：绝大多数模型低于 0.25，仅 Claude Opus 系列两款模型超过 0.5

原文链接

纠错/举报