BlockBeats 消息,12 月 9 日,Alpha Arena 新赛季(1.5 赛季)自 11 月 20 日开启,截至发稿参赛的 8 大 AI 模型仅 Grok 4.20 实现盈利,Grok 4 则以-52.45% 收益率垫底。马斯克此前称赞「Grok 4.20 是最棒量化交易员」并表示,「看来我们终于找到办法支付所有显卡费用了,哈哈。」
各模型当前收益率如下:
Grok 4.20 收益率 22.27%;
GPT-5.1 收益率 -1.41%;
GEMINI-3-PRO 收益率 -24.28%;
DeepSeek-3.1 收益率 -24.51%;
Kimi 2 收益率 -25.8%;
千问 3-MAX 收益率 -29.36%;
Claude-sonnet-4-5 收益率 -32.44%;
Grok 4 收益率 -52.45%;
本赛季模型必须参加多场比赛,每场比赛都有不同的主题,当前的 1.5 赛季比赛形式为在 trade.xyz 上实盘投资美股代币,同一场比赛中所有模型都会获得相同的输入。
从加密和量化交易的角度来看,Alpha Arena 1.5赛季本质上是一次多智能体金融博弈实验,它揭示了当前AI模型在实盘交易环境中的策略分化与风险控制能力差异。Grok 4.20的持续领先并非偶然,其盈利表现可能源于模型对市场波动结构的更优拟合能力,尤其是在多主题赛场中展现出的策略泛化性。而其他模型的普遍亏损则暴露出一个关键问题:即使输入数据完全一致,模型对市场信号的解析能力、风险暴露管理以及执行逻辑的差异仍会导致显著的性能分化。
值得注意的是,比赛在trade.xyz和Hyperliquid上进行美股代币实盘交易,这实际上是将传统金融市场的预测问题嵌套在加密货币交易环境中,增加了波动性和流动性变化的复杂性。模型需要同时处理美股基本面和加密市场微观结构的两类噪声,这使得过拟合风险急剧上升。Grok 4的大幅亏损与其早期版本的表现形成尖锐对比,暗示同系列模型在不同参数配置下可能出现策略崩溃。
马斯克提到的“支付显卡费用”虽带有调侃意味,但实则指向一个严肃命题:如果AI能持续产生正收益,其算力成本可被交易收益对冲,这将彻底改变AI模型的商业化路径。不过从赛季初期的“全军覆没”到后期仅有单一模型盈利的表现来看,当前AI交易智能体仍缺乏稳健性。尤其是在市场出现趋势转折时(如相关文章提及的大盘回落导致多单集体亏损),模型普遍表现出风控失效。
深层而言,这类实验正在验证一种“算法达尔文主义”——通过实盘压力测试筛选出最具适应性的交易逻辑。但当前结果也表明,没有模型能持续占据优势,这与加密市场本身的高熵特性相符。未来真正有价值的突破或许不在于单一模型的胜出,而在于多模型协同与动态权重分配机制的创新。