据 1M AI News 监测,东京 AI 研究公司 Sakana AI(由 Transformer 论文共同作者 Llion Jones 和前 Google Brain 研究员 David Ha 创立)联合英属哥伦比亚大学、Vector Institute 和牛津大学的研究者在 Nature 发表论文,展示了一条能自动走完科研全流程的 AI 管线「The AI Scientist」:从提出假设、检索文献、设计并执行实验、分析数据、绘制图表,到撰写完整的 LaTeX 论文并自我审稿,全程无人修改。
研究团队将三篇 AI 生成的论文匿名提交至 ICLR 2025 ICBINB Workshop(该 Workshop 录用率约 70%),经人类审稿人盲审后,其中一篇获得 6、7、6 三个评分(平均 6.33),超过该 Workshop 的平均录用门槛,排名高于 55% 的人类投稿。按预设协议,论文在被接收后撤回,未正式发表。另外两篇未达到录用标准。研究团队的内部评估认为,这三篇论文均未达到 ICLR 主会(录用率约 32%)的水平。
论文还报告了两个「缩放定律」:底层基座模型越强,生成论文的质量越高,且这一相关性具有统计显著性(P < 0.00001);单篇论文分配的计算资源越多,质量也越高。团队据此推断,随着模型持续进步和推理成本下降,未来版本的 AI 科学家能力将大幅提升。
系统的无模板模式使用 o3 生成研究想法和代码审查、Claude Sonnet 4 编写实验代码、GPT-4o 处理图表等视觉任务、o4-mini 执行低成本审稿。实验执行采用并行化的 Agent 树搜索,分四个阶段推进:初步实现、超参调优、研究议程执行和消融实验。团队同步开发的「自动审稿人」在 ICLR 论文上的判断准确率与人类审稿人持平(平衡准确率 69%),为规模化评估 AI 生成的论文提供了基础。
论文同时讨论了风险:AI 论文可能淹没已不堪重负的同行评审体系、人为夸大研究履历、在未经授权的情况下复用他人成果。团队建议学术界尽快建立 AI 生成论文的披露和评估规范。