Harness Engineering正在成为AI编程的真正战场

据 1M AI News 监测，AI 编程 IDE Qoder 发布长文梳理了一个正在成形的行业趋势：头部科技公司的 AI 编程竞争焦点已从模型能力本身转向模型之外的一切，即「Harness Engineering」（编排工程）。文章用一个类比概括：模型是 CPU，上下文窗口是内存，Harness 是操作系统，Agent 是应用程序。决定最终产出质量的不是 CPU 有多快，而是操作系统设计得多好。

文章整理了多家公司已公开的实践数据：

1. Stripe 在开源 Agent 框架 Goose 基础上构建了 Blueprint 状态机系统，每周合并超过 1300 个完全由 Agent 编写的 PR
2. Shopify 开源了 Roast 工作流框架，将 AI 步骤与确定性代码交替编排
3. Ramp 基于 OpenCode 构建了 Inspect 系统，在沙箱中并行执行，合并的 PR 中 30% 由 Agent 编写
4. Coinbase 自建 Cloudbot，将 PR 审查周期从 150 小时压缩到 15 小时
5. OpenAI 用 Codex 驱动整个产品迭代，3 名工程师（后扩展至 7 人）在五个月内以零手写代码方式交付了一个百万行级产品

Qoder 认为这些方案有一个共同的结构性限制：Agent 仍然是单体的，一个模型实例、一个上下文窗口、一条执行路径从头跑到尾。任务复杂度上升时会遇到五个瓶颈：上下文窗口变成零和博弈（研究、编码、测试、审查挤在同一窗口里）；角色切换的认知开销（一个 Agent 同时当技术负责人、开发、QA 和代码审查员）；长链执行中的目标漂移；功能正确性验证不足（代码干净但业务逻辑不对）；终端命令执行的不可逆风险。

Qoder 据此推出了 Experts Mode（测试版），将单 Agent 拆成多个专家角色：Leader 负责协调和任务分解，开发、研究、浏览器测试、QA、代码审查各由独立 Agent 承担，每个 Agent 使用不同模型和独立上下文窗口。Qoder 称内部基准测试中，Experts Mode 质量比单 Agent 模式高 67%，比 Claude Code Agent Teams 高 16%，成本不到后者的三分之二。