AI自评全是好评怎么办？Anthropic用GAN思路让Claude连续编程4小时，124美元造出音乐工作站

据 1M AI News 监测，Anthropic Labs 工程师 Prithvi Rajasekaran 发文详解团队如何让 Claude 连续数小时自主编写完整应用。他们发现了一个关键瓶颈：让 AI 自己检查自己的代码质量时，它几乎永远觉得自己写得不错，哪怕成品明显有问题也会放行。解法是把「写代码的 AI」和「审代码的 AI」拆成两个独立角色，后者专职挑毛病，比自我审查有效得多。

最终架构由三个 AI 协作：一个负责把用户的一句话需求扩展成完整产品方案，一个负责逐功能写代码，一个负责像真实用户一样点击、操作正在运行的应用并打分。写代码的 AI 和审代码的 AI 每轮开工前先对齐「这轮做什么、怎么算做完」，审代码的 AI 会真的去用这个应用，找出实际 bug 后把修改意见打回去。

对照实验很直观：同样一句「做一个 2D 复古游戏编辑器」，单个 AI 跑 20 分钟花 $9，产出的游戏画面能打开但核心玩法完全跑不通，角色不响应操作；三 AI 协作跑 6 小时花 $200，产出的版本可以正常操控角色、在关卡里移动，审核 AI 还在过程中抓到了填充工具只画端点不填区域、后端路由冲突等具体 bug。

Claude Opus 4.6 让这套架构得以大幅简化。此前 Sonnet 4.5 会在长任务后期「焦虑收尾」，还没做完就急着结束，必须定期清空记忆重新启动。Opus 4.6 基本消除了这个问题，写代码的 AI 可以在单次会话中连贯工作超过 2 小时。用简化后的架构生成浏览器端音乐制作工具，约 4 小时花费 $124.70，审核 AI 仍然捕获了「录音按钮只切状态但没接麦克风」「音频片段无法拖拽」等遗漏。

文章还透露了一个有趣的发现：在前端设计实验中，评分标准里的措辞会直接影响 AI 的审美方向。写上「最好的设计是博物馆级别的」之后，AI 在做一个荷兰艺术博物馆网站时，第十轮迭代自行推翻了前九轮的平面方案，改为用 CSS 渲染的 3D 展厅，让访客通过虚拟门廊在画廊之间穿行。

原文链接

纠错/举报