header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

ARC-AGI-3拆出两个排行榜:裸模型不到1%,加Agent框架后首日即达36%

1M AI News 监测,ARC-AGI-3 论文将评测拆分为两个排行榜。官方排行榜禁止外部 harness(Agent 框架),所有模型使用同一极简提示词、不提供工具,测的是模型脱离脚手架后的原生智能。社区排行榜则允许 harness,得分自报,ARC Prize 默认不验证,论文明确提醒「不应将社区排行榜上的分数解读为 AGI 进展的证据」。

官方排行榜上,前沿模型得分均低于 1%:Gemini 3.1 Pro Preview 0.37%、GPT 5.4 High 0.26%、Opus 4.6 Max 0.25%、Grok 4.20 为 0%。这组数字暴露的是 LLM 在没有工程辅助时的真实自主推理水平。

社区排行榜首个公开结果来自 AI 公司 Symbolica。其 Arcgentica Agent 基于自研 Agentica SDK 构建,采用编排器加专业子代理架构(探索者、理论家、测试者、求解者),不包含任何游戏特定的提示词,在公开评测集上取得 36.08% 的未验证得分,通过 182 个可玩关卡中的 113 个,完整通关 7 款游戏。底层模型为 Opus 4.6 High(120K),全部推理成本 1005 美元,而官方排行榜上同系列 Opus 4.6 Max 裸跑 0.25% 花费 8900 美元。论文将 Symbolica 的方案列为社区早期实验的代表案例。

论文同时指出,harness 工程虽不代表 AGI 进步,但具有实际的任务自动化价值,并预期 2026 年 ARC-AGI-3 将推动 harness 创新取得显著进展。代码已在 GitHub 开源。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成