据 1M AI News 监测,AI 编程公司 Cognition(Devin 和 Windsurf 的开发商)发布 SWE-1.6 模型。在 SWE-Bench Pro 上保持与上月 Preview 版本相当的得分,但重点放在了「模型体验」优化上:Preview 版本顺序调用工具、简单问题过度思考、容易陷入重复推理循环,SWE-1.6 把这些问题逐一修掉了。
三组对比数据(SWE-1.6 Preview → SWE-1.6):
1. 用 Bash 替代专用工具(坏习惯):97% → 11.2%
2. 重复推理循环(坏习惯):34.6% → 1.8%
3. 并行工具调用(好习惯):3.9% → 90.5%
核心训练技巧是在强化学习奖励中加入长度惩罚,抑制不必要的长轨迹。消融实验显示,加入惩罚后模型对话轮次从约 61.5 降至 51.0,任务解决率基本持平(33.8% vs 32.7%),用更少的步数做到同样的事。
这些指标不会出现在传统基准榜单上,但它们决定了用户在实际使用中是觉得「顺」还是觉得「烦」。Cognition 把这类优化统称为「model UX」,认为它和智能水平同等重要。
SWE-1.6 今日起在 Windsurf 中对所有用户免费开放 3 个月,由 Fireworks 提供推理服务,速度 200 tok/s。付费用户可选 Cerebras 加速版本,速度 950 tok/s。