据 1M AI News 监测,AI 编程工具 Cursor 公开了其内部基准测试 CursorBench 的方法论和数据。Cursor 认为 SWE-bench 等公开基准存在三个根本问题:任务以修 bug 为主,与开发者实际使用 agent 的方式不对齐;评分机制假设只有少数正确解法,无法处理开放式需求;训练数据污染严重,OpenAI 已因此停止报告 SWE-bench Verified 成绩,其调查发现近 60% 的未解决问题存在测试缺陷。
CursorBench 的任务来源于 Cursor Blame 功能:追溯已提交代码到产生它的 agent 请求,形成天然的「需求 — 正确答案」配对。大量任务取自内部代码库,降低数据污染风险,测试集每隔数月更新。当前版本 CursorBench-3 的任务复杂度较初版翻倍(代码行数和涉及文件数均翻倍),远超 SWE-bench 各变体。任务描述故意保持简短模糊,模拟开发者与 agent 的真实交流方式,由 agent 评分器打分。
Cursor 称 CursorBench 在前沿模型间产生了比公开基准更大的区分度。在公开基准上分数接近甚至被 Haiku 追平的模型,在 CursorBench 上呈现出与开发者实际体验一致的明显差距。Cursor 表示未来将适配长时运行的自主 agent 场景,并计划公开更多数据。