header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

SWE-CI:现有编程基准全在测错误的能力,AI长期维护代码远弱于一次性修bug

1M AI News 监测,中山大学与阿里巴巴联合团队发布代码维护基准 SWE-CI,直指 SWE-bench 等现有基准的根本盲区:真实软件开发中,维护活动占全生命周期成本的 60%-80%,但主流基准均采用「快照式」范式,只测一次性修复能力,无法评估模型能否在长期演化中保持代码质量。

SWE-CI 包含 100 个任务,均来自真实 GitHub 仓库,平均跨越 233 天、71 次连续提交的演化历史。评测采用「架构师-程序员」双 Agent 协议:架构师分析当前代码与目标版本的测试差距并生成需求文档,程序员据此修改代码,两者最多迭代 20 轮,以 EvoScore 衡量长期可维护性(越晚的迭代权重越高,惩罚先快后烂的短视代码)。

对 8 家厂商 18 个模型的测评结果:

- Claude Opus 系列全程领跑,GLM-5 表现突出
- 2026 年后发布的模型比此前版本进步幅度明显更大,代码维护能力正在加速演进
- 零回归率(全程不引入任何旧功能退化的比例)是最严峻的短板:绝大多数模型低于 0.25,仅 Claude Opus 系列两款模型超过 0.5

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成