header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Cognition发布SWE-1.6,成绩不变但体验大改,Windsurf免费3个月

1M AI News 监测,AI 编程公司 Cognition(Devin 和 Windsurf 的开发商)发布 SWE-1.6 模型。在 SWE-Bench Pro 上保持与上月 Preview 版本相当的得分,但重点放在了「模型体验」优化上:Preview 版本顺序调用工具、简单问题过度思考、容易陷入重复推理循环,SWE-1.6 把这些问题逐一修掉了。

三组对比数据(SWE-1.6 Preview → SWE-1.6):

1. 用 Bash 替代专用工具(坏习惯):97% → 11.2%
2. 重复推理循环(坏习惯):34.6% → 1.8%
3. 并行工具调用(好习惯):3.9% → 90.5%

核心训练技巧是在强化学习奖励中加入长度惩罚,抑制不必要的长轨迹。消融实验显示,加入惩罚后模型对话轮次从约 61.5 降至 51.0,任务解决率基本持平(33.8% vs 32.7%),用更少的步数做到同样的事。

这些指标不会出现在传统基准榜单上,但它们决定了用户在实际使用中是觉得「顺」还是觉得「烦」。Cognition 把这类优化统称为「model UX」,认为它和智能水平同等重要。

SWE-1.6 今日起在 Windsurf 中对所有用户免费开放 3 个月,由 Fireworks 提供推理服务,速度 200 tok/s。付费用户可选 Cerebras 加速版本,速度 950 tok/s。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成