ARC-AGI-3拆出两个排行榜：裸模型不到1%，加Agent框架后首日即达36%

据 1M AI News 监测，ARC-AGI-3 论文将评测拆分为两个排行榜。官方排行榜禁止外部 harness（Agent 框架），所有模型使用同一极简提示词、不提供工具，测的是模型脱离脚手架后的原生智能。社区排行榜则允许 harness，得分自报，ARC Prize 默认不验证，论文明确提醒「不应将社区排行榜上的分数解读为 AGI 进展的证据」。

官方排行榜上，前沿模型得分均低于 1%：Gemini 3.1 Pro Preview 0.37%、GPT 5.4 High 0.26%、Opus 4.6 Max 0.25%、Grok 4.20 为 0%。这组数字暴露的是 LLM 在没有工程辅助时的真实自主推理水平。

社区排行榜首个公开结果来自 AI 公司 Symbolica。其 Arcgentica Agent 基于自研 Agentica SDK 构建，采用编排器加专业子代理架构（探索者、理论家、测试者、求解者），不包含任何游戏特定的提示词，在公开评测集上取得 36.08% 的未验证得分，通过 182 个可玩关卡中的 113 个，完整通关 7 款游戏。底层模型为 Opus 4.6 High（120K），全部推理成本 1005 美元，而官方排行榜上同系列 Opus 4.6 Max 裸跑 0.25% 花费 8900 美元。论文将 Symbolica 的方案列为社区早期实验的代表案例。

论文同时指出，harness 工程虽不代表 AGI 进步，但具有实际的任务自动化价值，并预期 2026 年 ARC-AGI-3 将推动 harness 创新取得显著进展。代码已在 GitHub 开源。

原文链接

纠错/举报