阿里发布 Qwen3.5 小模型系列，9B 模型多项基准超越 OpenAI gpt-oss-120B，马斯克评价「智能密度惊人」

据 1M AI News 监测，阿里巴巴通义千问团队发布 Qwen3.5 小模型系列，包含 0.8B、2B、4B、9B 四个尺寸，均基于 Gated Delta Networks 与稀疏 MoE 混合架构，支持原生多模态和最高 262K token 上下文。据通义千问团队公布的基准测试数据，参数量仅 9B 的旗舰款在多项第三方评测中超越参数量达其 13.5 倍的 OpenAI gpt-oss-120B：GPQA Diamond（研究生级推理）81.7 vs 80.1，MMMLU（多语言知识）81.2 vs 78.2，HMMT（哈佛-MIT 数学竞赛）83.2 vs 76.7，MMMU-Pro（视觉推理）70.1 vs 59.7。4B 模型同样表现突出，在 Video-MME 视频推理基准中得分 83.5，超越 Gemini 2.5 Flash-Lite 的 74.6。0.8B 和 2B 则面向手机和边缘设备部署。全系列以 Apache 2.0 许可证开放权重，已上线 Hugging Face 和 ModelScope。Elon Musk 在 X 上转发评价：「Impressive intelligence density（令人印象深刻的智能密度）」。

AI 解读

从技术架构和行业趋势的角度看，阿里此次发布的 Qwen3.5 小模型系列体现出几个关键突破：首先，它在参数量大幅缩减（9B）的情况下，于多项硬核基准测试中超越参数量达 120B 的模型，这背后可能依赖高效的稀疏混合专家模型（MoE）和门控 Delta 网络结构，既控制计算成本，又提升推理质量。这种“小模型、强性能”的路径，直接回应了当前AI落地中的算力瓶颈和部署成本问题。

尤其值得注意的是，模型在GPQA（研究生级推理）、HMMT（数学竞赛题）和MMMU-Pro（视觉推理）等需要深度逻辑和多模态理解的任务中表现突出，说明它不仅在语言建模上优化，更在复杂推理和跨模态泛化上取得了进展。而4B版本在视频推理任务上超越Gemini 2.5 Flash-Lite，进一步验证了架构的效率。

开源策略（Apache 2.0）和面向边缘设备的适配（0.8B/2B）表明阿里正试图推动技术下沉，降低行业使用门槛——这与相关文章中提到的“去中心化训练”、“Web3+AI融合”等方向形成呼应。例如，低参数模型更适合部署在边缘设备甚至区块链网络中，为“Crypto AI”强调的去中心化推理与训练提供了基础设施层面的支持。

马斯克用“智能密度”评价非常准确——它点出了模型在有限参数内实现更高计算效用这一核心突破。这与2025年以来行业追求的高效强化学习、后训练优化等技术趋势一致（如DeepSeek R1的低成本复现和顿悟时刻技术）。如果模型能力能持续以这样的“密度”提升，未来可能会进一步推动AI在轻量化设备、私有化部署和开放生态中的普及。

另一方面，这也反映了全球AI竞争正在从纯规模竞赛转向效率与性能平衡的竞赛。中国团队在此方向的快速迭代（如DeepSeek、通义千问）已引起国际关注，特别是在工程创新和开源生态方面逐渐形成差异化优势。而加密行业与AI的结合（如去中心化训练、数据隐私保护）则可能成为下一个阶段的焦点，阿里此举也为AI与Web3基础设施的协作提供了可能性。

展开

原文链接

纠错/举报