浪潮YuanLab开源万亿参数多模态模型Yuan3.0 Ultra，激活参数68.8B，预训练效率提升49%

据 1M AI News 监测，浪潮信息旗下 YuanLab.ai 团队今日开源发布源 Yuan3.0 Ultra 多模态基础大模型，总参数规模万亿级，为当前业界仅有的三个万亿级开源多模态大模型之一。模型采用统一多模态架构，语言主干基于 103 层 Transformer 的混合专家（MoE）结构，激活参数 68.8B。浪潮信息是中国最大的服务器厂商之一，源大模型系列自 2021 年起迭代至今，走全面开源路线，此前发布的 Yuan3.0 Flash（40B）已在企业级 RAG、摘要生成等任务上超过 GPT-5.1。

Yuan3.0 Ultra 提出 LAEP（Layer-Adaptive Expert Pruning）算法，核心思路是在预训练过程中识别并裁剪低贡献专家。团队发现 MoE 训练进入稳定阶段后，最高与最低专家负载差异近 500 倍，大量专家长期低负载导致算力浪费。LAEP 根据专家负载统计动态裁剪冗余结构并重排专家，将初始 1515B 参数优化至 1010B，参数减少 33.3%，整体预训练效率提升 49%。

性能方面，Yuan3.0 Ultra 在 DocMatix、MMTab 等多模态文档理解评测中超过 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.2，在 Spider Text-to-SQL 评测中领先 Kimi K2.5 和 DeepSeek V3.2。推理策略采用 Fast-thinking 强化学习范式，通过反思抑制奖励机制（RIRM）减少无效反思，在提升精度的同时降低推理 token 消耗。模型权重（16bit 与 4bit）、论文、训练方法和评测结果均已开源。源 Yuan3.0 系列还将陆续发布 Pro（200B）等版本。

原文链接

纠错/举报