Cursor公开内部基准CursorBench：公开基准已失效，前沿模型间差距远比SWE-bench显示的大

据 1M AI News 监测，AI 编程工具 Cursor 公开了其内部基准测试 CursorBench 的方法论和数据。Cursor 认为 SWE-bench 等公开基准存在三个根本问题：任务以修 bug 为主，与开发者实际使用 agent 的方式不对齐；评分机制假设只有少数正确解法，无法处理开放式需求；训练数据污染严重，OpenAI 已因此停止报告 SWE-bench Verified 成绩，其调查发现近 60% 的未解决问题存在测试缺陷。

CursorBench 的任务来源于 Cursor Blame 功能：追溯已提交代码到产生它的 agent 请求，形成天然的「需求 — 正确答案」配对。大量任务取自内部代码库，降低数据污染风险，测试集每隔数月更新。当前版本 CursorBench-3 的任务复杂度较初版翻倍（代码行数和涉及文件数均翻倍），远超 SWE-bench 各变体。任务描述故意保持简短模糊，模拟开发者与 agent 的真实交流方式，由 agent 评分器打分。

Cursor 称 CursorBench 在前沿模型间产生了比公开基准更大的区分度。在公开基准上分数接近甚至被 Haiku 追平的模型，在 CursorBench 上呈现出与开发者实际体验一致的明显差距。Cursor 表示未来将适配长时运行的自主 agent 场景，并计划公开更多数据。

原文链接

纠错/举报