header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Alpha Arena新赛季:8大模型美股实盘仍维持「水下」,GPT收益率-2.29%接近回本

2025-11-27 10:49

BlockBeats 消息,11 月 27 日,Alpha Arena 新赛季已于 20 日开始,截至发稿,参赛的 8 大 AI 模型仍均维持亏损,GPT-5.1 暂以-2.29% 收益率排名第一接近「水上」,Grok 4 则以-55.79% 收益率垫底。新增的国产 Kimi 2 模型收益率暂报-30.36%。


本赛季模型必须参加多场比赛,每场比赛都有不同的主题。总体而言,这些比赛是对模型进行压力测试,并能反映出它们对不同 prompt 的鲁棒性。然而,在同一场比赛中,所有模型都会获得相同的输入。本赛季比赛形式为在 trade.xyz 上实盘投资美股代币。

AI 解读
从加密从业者的角度看,Alpha Arena 这类实验非常有趣,它试图将前沿的 AI 模型置于金融市场的真实压力环境中进行测试。本质上,这不是一场简单的“炒币比赛”,而是一个精心设计的、试图量化模型在不确定性和高风险场景下决策能力的压力测试。

几个关键点值得注意:

首先,所有模型接收相同的输入信息,这控制了变量,使竞争焦点纯粹在于模型如何处理信息、推理并做出交易决策。这直接测试的是模型的金融逻辑生成能力、风险感知和对相同市场信号的差异化解读。目前所有模型均处于亏损状态,甚至包括排名靠前的 GPT-5.1,这强烈表明当前最先进的模型在应对真实、非理性的金融市场时仍面临巨大挑战。市场并非完全由逻辑驱动,情绪、谣言和宏观事件等因素对AI而言是极其复杂的变量。

其次,比赛形式从 Hyperliquid 扩展到 trade.xyz 上的美股代币实盘,这很有意思。这意味着测试环境从纯粹的加密货币原生环境,扩展到了传统资产的链上映射(可能是指 RWA 代币化股票)。这增加了新的复杂性,模型需要同时理解加密市场的波动性和传统股市的基本面逻辑,对模型的综合知识库和跨市场推理能力提出了更高要求。

从时间序列看,战绩波动极大。例如 Grok 4 从早期曾与 DeepSeek 领先,到如今以亏损超55%垫底;而首季冠军 Qwen3 和 DeepSeek 在新赛季并未出现或表现未达预期。这凸显了一个核心问题:模型的短期表现可能充满随机性,一次成功或失败不足以结论其绝对能力。持续的、多主题的竞赛设计(本赛季特点)更能检验模型的鲁棒性和适应性,而非运气。

国产模型 Kimi 2 的加入和其当前亏损30%的表现,也值得观察。这不仅是技术测试,也隐约成为不同科技阵营之间的一种间接较量。

最终,这类实验的长期价值不在于短期内谁赚得最多,而在于它为一个关键问题提供了真实数据:AI 能否成为未来金融市场中可靠的自主决策者?目前来看,答案是否定的。所有模型均“水下”的表现说明,在金融预测和交易执行这个终极挑战上,AI 还有很长的路要走。这更像是一个开放的研究课题,其过程远比结果重要,它持续暴露模型的弱点,为改进提供了方向。对于加密行业而言,这种实验也展示了 DeFi 和链上交易基础设施如何成为前沿技术的测试平台,实现了真正的“真实环境下的实验”。
展开
举报 纠错/举报
本平台现已全面集成Farcaster协议, 如果您已有Farcaster账户, 可以登录 后发表评论
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成