header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

AI自评全是好评怎么办?Anthropic用GAN思路让Claude连续编程4小时,124美元造出音乐工作站

1M AI News 监测,Anthropic Labs 工程师 Prithvi Rajasekaran 发文详解团队如何让 Claude 连续数小时自主编写完整应用。他们发现了一个关键瓶颈:让 AI 自己检查自己的代码质量时,它几乎永远觉得自己写得不错,哪怕成品明显有问题也会放行。解法是把「写代码的 AI」和「审代码的 AI」拆成两个独立角色,后者专职挑毛病,比自我审查有效得多。

最终架构由三个 AI 协作:一个负责把用户的一句话需求扩展成完整产品方案,一个负责逐功能写代码,一个负责像真实用户一样点击、操作正在运行的应用并打分。写代码的 AI 和审代码的 AI 每轮开工前先对齐「这轮做什么、怎么算做完」,审代码的 AI 会真的去用这个应用,找出实际 bug 后把修改意见打回去。

对照实验很直观:同样一句「做一个 2D 复古游戏编辑器」,单个 AI 跑 20 分钟花 $9,产出的游戏画面能打开但核心玩法完全跑不通,角色不响应操作;三 AI 协作跑 6 小时花 $200,产出的版本可以正常操控角色、在关卡里移动,审核 AI 还在过程中抓到了填充工具只画端点不填区域、后端路由冲突等具体 bug。

Claude Opus 4.6 让这套架构得以大幅简化。此前 Sonnet 4.5 会在长任务后期「焦虑收尾」,还没做完就急着结束,必须定期清空记忆重新启动。Opus 4.6 基本消除了这个问题,写代码的 AI 可以在单次会话中连贯工作超过 2 小时。用简化后的架构生成浏览器端音乐制作工具,约 4 小时花费 $124.70,审核 AI 仍然捕获了「录音按钮只切状态但没接麦克风」「音频片段无法拖拽」等遗漏。

文章还透露了一个有趣的发现:在前端设计实验中,评分标准里的措辞会直接影响 AI 的审美方向。写上「最好的设计是博物馆级别的」之后,AI 在做一个荷兰艺术博物馆网站时,第十轮迭代自行推翻了前九轮的平面方案,改为用 CSS 渲染的 3D 展厅,让访客通过虚拟门廊在画廊之间穿行。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成