据 1M AI News 监测,AI 编程 IDE Qoder 发布长文梳理了一个正在成形的行业趋势:头部科技公司的 AI 编程竞争焦点已从模型能力本身转向模型之外的一切,即「Harness Engineering」(编排工程)。文章用一个类比概括:模型是 CPU,上下文窗口是内存,Harness 是操作系统,Agent 是应用程序。决定最终产出质量的不是 CPU 有多快,而是操作系统设计得多好。
文章整理了多家公司已公开的实践数据:
1. Stripe 在开源 Agent 框架 Goose 基础上构建了 Blueprint 状态机系统,每周合并超过 1300 个完全由 Agent 编写的 PR
2. Shopify 开源了 Roast 工作流框架,将 AI 步骤与确定性代码交替编排
3. Ramp 基于 OpenCode 构建了 Inspect 系统,在沙箱中并行执行,合并的 PR 中 30% 由 Agent 编写
4. Coinbase 自建 Cloudbot,将 PR 审查周期从 150 小时压缩到 15 小时
5. OpenAI 用 Codex 驱动整个产品迭代,3 名工程师(后扩展至 7 人)在五个月内以零手写代码方式交付了一个百万行级产品
Qoder 认为这些方案有一个共同的结构性限制:Agent 仍然是单体的,一个模型实例、一个上下文窗口、一条执行路径从头跑到尾。任务复杂度上升时会遇到五个瓶颈:上下文窗口变成零和博弈(研究、编码、测试、审查挤在同一窗口里);角色切换的认知开销(一个 Agent 同时当技术负责人、开发、QA 和代码审查员);长链执行中的目标漂移;功能正确性验证不足(代码干净但业务逻辑不对);终端命令执行的不可逆风险。
Qoder 据此推出了 Experts Mode(测试版),将单 Agent 拆成多个专家角色:Leader 负责协调和任务分解,开发、研究、浏览器测试、QA、代码审查各由独立 Agent 承担,每个 Agent 使用不同模型和独立上下文窗口。Qoder 称内部基准测试中,Experts Mode 质量比单 Agent 模式高 67%,比 Claude Code Agent Teams 高 16%,成本不到后者的三分之二。