据 1M AI News 监测,Anthropic Labs 工程师 Prithvi Rajasekaran 发文详解团队如何让 Claude 连续数小时自主编写完整应用。他们发现了一个关键瓶颈:让 AI 自己检查自己的代码质量时,它几乎永远觉得自己写得不错,哪怕成品明显有问题也会放行。解法是把「写代码的 AI」和「审代码的 AI」拆成两个独立角色,后者专职挑毛病,比自我审查有效得多。
最终架构由三个 AI 协作:一个负责把用户的一句话需求扩展成完整产品方案,一个负责逐功能写代码,一个负责像真实用户一样点击、操作正在运行的应用并打分。写代码的 AI 和审代码的 AI 每轮开工前先对齐「这轮做什么、怎么算做完」,审代码的 AI 会真的去用这个应用,找出实际 bug 后把修改意见打回去。
对照实验很直观:同样一句「做一个 2D 复古游戏编辑器」,单个 AI 跑 20 分钟花 $9,产出的游戏画面能打开但核心玩法完全跑不通,角色不响应操作;三 AI 协作跑 6 小时花 $200,产出的版本可以正常操控角色、在关卡里移动,审核 AI 还在过程中抓到了填充工具只画端点不填区域、后端路由冲突等具体 bug。
Claude Opus 4.6 让这套架构得以大幅简化。此前 Sonnet 4.5 会在长任务后期「焦虑收尾」,还没做完就急着结束,必须定期清空记忆重新启动。Opus 4.6 基本消除了这个问题,写代码的 AI 可以在单次会话中连贯工作超过 2 小时。用简化后的架构生成浏览器端音乐制作工具,约 4 小时花费 $124.70,审核 AI 仍然捕获了「录音按钮只切状态但没接麦克风」「音频片段无法拖拽」等遗漏。
文章还透露了一个有趣的发现:在前端设计实验中,评分标准里的措辞会直接影响 AI 的审美方向。写上「最好的设计是博物馆级别的」之后,AI 在做一个荷兰艺术博物馆网站时,第十轮迭代自行推翻了前九轮的平面方案,改为用 CSS 渲染的 3D 展厅,让访客通过虚拟门廊在画廊之间穿行。