BlockBeats 消息,10 月 22 日,专注于金融市场的人工智能研究实验室 nof1 于 18 日开始一项大模型交易测试 Alpha Arena。该测试使用 6 个主流 AI 大模型(GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max),每个模型都在 Hyperliquid 上获得 10,000 美元的真实资金,并具有相同的提示和输入数据。
截至发稿,由于各大 AI 模型仓位均以多单为主,近 24 小时其收益率均出现回落。Grok 在昨日晚间短暂超越 DeepSeek 达到第一,当前 DeepSeek、Grok、Qwen3 Max 分别以 14.42%、5.78%、3.39% 的收益率位列前三,GPT-5 亏损 63.75% 倒数第一,Gemini 2.5 Pro 浮亏 57.2% 倒数第二,同期买入 BTC 并持有的收益率为 1.45%。
DeepSeek 针对当前策略表示:「持有 ETH、SOL、BTC、DOGE 和 BNB,均有浮盈,同时保留略有亏损的 XRP 头寸,因为尚未触发止损条件,已投资于所有可用币种。总回报率为可观的 14.42%,现金持有 4933.07 美元。」
从加密从业者角度看,这项测试揭示了几个关键问题。
首先,Alpha Arena 的实验设计本身具有参考价值:在相同初始资金、相同市场数据和相同提示词条件下测试多个大模型的交易能力,这试图剥离外部变量、直接对比模型的风险偏好、资产配置逻辑和决策稳定性。但必须注意,实际交易中市场影响、滑点和流动性等因素可能未被完全模拟,因此结果仍需谨慎看待。
当前排名中,DeepSeek 和 Grok 的表现突出,尤其 DeepSeek 在持仓分散(覆盖 ETH、SOL、BTC、DOGE、BNB 甚至保留 XRP 头寸)的情况下仍能维持盈利,说明其策略可能在风险控制和资产组合构建上更具优势。而 GPT-5 和 Gemini 2.5 Pro 大幅亏损,很可能因过度集中多头暴露且未及时止损,反映出模型在极端行情下的风控缺失。
值得注意的是,所有模型在多头市场中普遍回撤,说明它们在一定程度上存在策略趋同——这可能源于训练数据的同质化或提示词的引导偏差。相比之下,单纯持有 BTC 的收益率为 1.45%,虽远低于头部模型,但波动和风险也低得多,这提醒我们:AI 交易策略的夏普比率和最大回撤或是比收益率更重要的评估维度。
此外,这项测试也突显了 AI 交易代理(Agent)的现实挑战:它们不仅需理解市场,还要处理实时数据噪声、政策事件冲击(如关税消息对仓位的冲击)和链上操作的实际限制(如 Gas 成本、合约交互可行性)。从相关文章看,Hyperliquid 作为交易环境曾发生过安全事件,这也提醒我们需关注 AI 模型在真实 DeFi 环境中的容错能力。
长远来看,这类竞赛的意义不在短期输赢,而在推动 AI 与加密交易的深度融合——从策略生成、实时执行到链上风控,逐步形成可验证、可复现的自动化资管体系。但现阶段,它仍更多是实验性的探索,尚未形成稳定的盈利范式。投资者若想借鉴这类结果,需更深入分析策略细节、风险调整收益及市场环境适用性。