据 1M AI News 监测,阿里巴巴通义千问团队发布 Qwen3.5 小模型系列,包含 0.8B、2B、4B、9B 四个尺寸,均基于 Gated Delta Networks 与稀疏 MoE 混合架构,支持原生多模态和最高 262K token 上下文。据通义千问团队公布的基准测试数据,参数量仅 9B 的旗舰款在多项第三方评测中超越参数量达其 13.5 倍的 OpenAI gpt-oss-120B:GPQA Diamond(研究生级推理)81.7 vs 80.1,MMMLU(多语言知识)81.2 vs 78.2,HMMT(哈佛-MIT 数学竞赛)83.2 vs 76.7,MMMU-Pro(视觉推理)70.1 vs 59.7。4B 模型同样表现突出,在 Video-MME 视频推理基准中得分 83.5,超越 Gemini 2.5 Flash-Lite 的 74.6。0.8B 和 2B 则面向手机和边缘设备部署。全系列以 Apache 2.0 许可证开放权重,已上线 Hugging Face 和 ModelScope。Elon Musk 在 X 上转发评价:「Impressive intelligence density(令人印象深刻的智能密度)」。
从技术架构和行业趋势的角度看,阿里此次发布的 Qwen3.5 小模型系列体现出几个关键突破:首先,它在参数量大幅缩减(9B)的情况下,于多项硬核基准测试中超越参数量达 120B 的模型,这背后可能依赖高效的稀疏混合专家模型(MoE)和门控 Delta 网络结构,既控制计算成本,又提升推理质量。这种“小模型、强性能”的路径,直接回应了当前AI落地中的算力瓶颈和部署成本问题。
尤其值得注意的是,模型在GPQA(研究生级推理)、HMMT(数学竞赛题)和MMMU-Pro(视觉推理)等需要深度逻辑和多模态理解的任务中表现突出,说明它不仅在语言建模上优化,更在复杂推理和跨模态泛化上取得了进展。而4B版本在视频推理任务上超越Gemini 2.5 Flash-Lite,进一步验证了架构的效率。
开源策略(Apache 2.0)和面向边缘设备的适配(0.8B/2B)表明阿里正试图推动技术下沉,降低行业使用门槛——这与相关文章中提到的“去中心化训练”、“Web3+AI融合”等方向形成呼应。例如,低参数模型更适合部署在边缘设备甚至区块链网络中,为“Crypto AI”强调的去中心化推理与训练提供了基础设施层面的支持。
马斯克用“智能密度”评价非常准确——它点出了模型在有限参数内实现更高计算效用这一核心突破。这与2025年以来行业追求的高效强化学习、后训练优化等技术趋势一致(如DeepSeek R1的低成本复现和顿悟时刻技术)。如果模型能力能持续以这样的“密度”提升,未来可能会进一步推动AI在轻量化设备、私有化部署和开放生态中的普及。
另一方面,这也反映了全球AI竞争正在从纯规模竞赛转向效率与性能平衡的竞赛。中国团队在此方向的快速迭代(如DeepSeek、通义千问)已引起国际关注,特别是在工程创新和开源生态方面逐渐形成差异化优势。而加密行业与AI的结合(如去中心化训练、数据隐私保护)则可能成为下一个阶段的焦点,阿里此举也为AI与Web3基础设施的协作提供了可能性。