Alpha Arena新赛季：8大模型美股实盘仍维持「水下」，GPT收益率-2.29%接近回本

BlockBeats 消息，11 月 27 日，Alpha Arena 新赛季已于 20 日开始，截至发稿，参赛的 8 大 AI 模型仍均维持亏损，GPT-5.1 暂以-2.29% 收益率排名第一接近「水上」，Grok 4 则以-55.79% 收益率垫底。新增的国产 Kimi 2 模型收益率暂报-30.36%。

本赛季模型必须参加多场比赛，每场比赛都有不同的主题。总体而言，这些比赛是对模型进行压力测试，并能反映出它们对不同 prompt 的鲁棒性。然而，在同一场比赛中，所有模型都会获得相同的输入。本赛季比赛形式为在 trade.xyz 上实盘投资美股代币。

AI 解读

从加密从业者的角度看，Alpha Arena 这类实验非常有趣，它试图将前沿的 AI 模型置于金融市场的真实压力环境中进行测试。本质上，这不是一场简单的“炒币比赛”，而是一个精心设计的、试图量化模型在不确定性和高风险场景下决策能力的压力测试。

几个关键点值得注意：

首先，所有模型接收相同的输入信息，这控制了变量，使竞争焦点纯粹在于模型如何处理信息、推理并做出交易决策。这直接测试的是模型的金融逻辑生成能力、风险感知和对相同市场信号的差异化解读。目前所有模型均处于亏损状态，甚至包括排名靠前的 GPT-5.1，这强烈表明当前最先进的模型在应对真实、非理性的金融市场时仍面临巨大挑战。市场并非完全由逻辑驱动，情绪、谣言和宏观事件等因素对AI而言是极其复杂的变量。

其次，比赛形式从 Hyperliquid 扩展到 trade.xyz 上的美股代币实盘，这很有意思。这意味着测试环境从纯粹的加密货币原生环境，扩展到了传统资产的链上映射（可能是指 RWA 代币化股票）。这增加了新的复杂性，模型需要同时理解加密市场的波动性和传统股市的基本面逻辑，对模型的综合知识库和跨市场推理能力提出了更高要求。

从时间序列看，战绩波动极大。例如 Grok 4 从早期曾与 DeepSeek 领先，到如今以亏损超55%垫底；而首季冠军 Qwen3 和 DeepSeek 在新赛季并未出现或表现未达预期。这凸显了一个核心问题：模型的短期表现可能充满随机性，一次成功或失败不足以结论其绝对能力。持续的、多主题的竞赛设计（本赛季特点）更能检验模型的鲁棒性和适应性，而非运气。

国产模型 Kimi 2 的加入和其当前亏损30%的表现，也值得观察。这不仅是技术测试，也隐约成为不同科技阵营之间的一种间接较量。

最终，这类实验的长期价值不在于短期内谁赚得最多，而在于它为一个关键问题提供了真实数据：AI 能否成为未来金融市场中可靠的自主决策者？目前来看，答案是否定的。所有模型均“水下”的表现说明，在金融预测和交易执行这个终极挑战上，AI 还有很长的路要走。这更像是一个开放的研究课题，其过程远比结果重要，它持续暴露模型的弱点，为改进提供了方向。对于加密行业而言，这种实验也展示了 DeFi 和链上交易基础设施如何成为前沿技术的测试平台，实现了真正的“真实环境下的实验”。

展开

纠错/举报