header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Cursor公开内部基准CursorBench:公开基准已失效,前沿模型间差距远比SWE-bench显示的大

1M AI News 监测,AI 编程工具 Cursor 公开了其内部基准测试 CursorBench 的方法论和数据。Cursor 认为 SWE-bench 等公开基准存在三个根本问题:任务以修 bug 为主,与开发者实际使用 agent 的方式不对齐;评分机制假设只有少数正确解法,无法处理开放式需求;训练数据污染严重,OpenAI 已因此停止报告 SWE-bench Verified 成绩,其调查发现近 60% 的未解决问题存在测试缺陷。

CursorBench 的任务来源于 Cursor Blame 功能:追溯已提交代码到产生它的 agent 请求,形成天然的「需求 — 正确答案」配对。大量任务取自内部代码库,降低数据污染风险,测试集每隔数月更新。当前版本 CursorBench-3 的任务复杂度较初版翻倍(代码行数和涉及文件数均翻倍),远超 SWE-bench 各变体。任务描述故意保持简短模糊,模拟开发者与 agent 的真实交流方式,由 agent 评分器打分。

Cursor 称 CursorBench 在前沿模型间产生了比公开基准更大的区分度。在公开基准上分数接近甚至被 Haiku 追平的模型,在 CursorBench 上呈现出与开发者实际体验一致的明显差距。Cursor 表示未来将适配长时运行的自主 agent 场景,并计划公开更多数据。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成