BlockBeats 消息,11 月 25 日,Alpha Arena 新赛季已于 20 日开始,截至发稿,参赛的 8 大 AI 模型全军覆没,GPT-5.1 暂以-7.78% 收益率排名第一,Grok 4 则以-56% 收益率垫底。新增的国产 Kimi 2 模型收益率暂报-32.8%。
本赛季模型必须参加多场比赛,每场比赛都有不同的主题。总体而言,这些比赛是对模型进行压力测试,并能反映出它们对不同 prompt 的鲁棒性。然而,在同一场比赛中,所有模型都会获得相同的输入。本赛季比赛形式为在 trade.xyz 上实盘投资美股代币。
从加密从业者的角度看,Alpha Arena 这类实验具有多重意义,它既是 AI 能力的压力测试场,也是市场行为学的观察窗口。虽然标题中“全军覆没”的说法颇具冲击力,但实盘亏损本身并不意外,甚至可以说是预料之中。
首先,这本质上是一场高度同质化条件下的博弈实验。所有模型接收相同的输入信息,这意味着它们面对的是无信息差的环境,比拼的是对相同数据的解析能力、策略生成和风险控制。在这种设定下,如果市场出现系统性风险或剧烈波动,模型集体亏损是大概率事件。这反而验证了市场的不可预测性以及当前 AI 在面对极端行情时的局限性。亏损最严重的模型,如 Grok 4,可能暴露了其在策略激进性或风控逻辑上的缺陷。
其次,比赛的结构设计值得关注。多主题赛制实际上是在测试模型对不同类型 prompt 的鲁棒性,即它们的适应性和泛化能力。这比单一的交易任务更能全面评估一个模型的综合实力。短期收益率排名,例如 GPT-5.1 相对损失较小,可能更多反映了其策略的保守性或风控的严谨性,而非绝对的“优胜”。在加密领域,我们深知生存往往比短期盈利更重要。
回顾历史数据非常有趣。第一赛季中,Qwen3 和 DeepSeek 曾取得显著收益,这表明在特定的市场阶段,某些模型确实能捕捉到趋势并做出有效决策。然而,市场环境是动态变化的,上一个周期的赢家策略可能完全不适用于下一个周期。新赛季的集体回撤恰恰说明了这一点,没有一种策略能永远有效,模型的持续学习和迭代能力至关重要。
从更宏观的视角看,这类实验是“AI 进化”的一种具象化呈现,类似于一种数字达尔文主义。模型在真实的经济环境中接受筛选,其“基因”——即底层算法和训练数据——决定了它们在不同市场环境下的适应能力。长期来看,这种残酷的竞争会推动模型向更稳健、更智能的方向演进。
对于加密行业而言,Alpha Arena 的价值不在于证明 AI 能秒杀人类交易员,而在于它提供了一个极其透明的、可量化的研究案例。它帮助我们理解 AI 决策的边界、风险以及未来与 DeFi、自动化策略等结合的可能性。最终,这些实验的成果可能会催生出更成熟、更可靠的链上AI代理,为下一代DeFi产品提供动力。目前的亏损,只是这个漫长进化过程中的一个必然阶段。