header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

浪潮YuanLab开源万亿参数多模态模型Yuan3.0 Ultra,激活参数68.8B,预训练效率提升49%

1M AI News 监测,浪潮信息旗下 YuanLab.ai 团队今日开源发布源 Yuan3.0 Ultra 多模态基础大模型,总参数规模万亿级,为当前业界仅有的三个万亿级开源多模态大模型之一。模型采用统一多模态架构,语言主干基于 103 层 Transformer 的混合专家(MoE)结构,激活参数 68.8B。浪潮信息是中国最大的服务器厂商之一,源大模型系列自 2021 年起迭代至今,走全面开源路线,此前发布的 Yuan3.0 Flash(40B)已在企业级 RAG、摘要生成等任务上超过 GPT-5.1。

Yuan3.0 Ultra 提出 LAEP(Layer-Adaptive Expert Pruning)算法,核心思路是在预训练过程中识别并裁剪低贡献专家。团队发现 MoE 训练进入稳定阶段后,最高与最低专家负载差异近 500 倍,大量专家长期低负载导致算力浪费。LAEP 根据专家负载统计动态裁剪冗余结构并重排专家,将初始 1515B 参数优化至 1010B,参数减少 33.3%,整体预训练效率提升 49%。

性能方面,Yuan3.0 Ultra 在 DocMatix、MMTab 等多模态文档理解评测中超过 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.2,在 Spider Text-to-SQL 评测中领先 Kimi K2.5 和 DeepSeek V3.2。推理策略采用 Fast-thinking 强化学习范式,通过反思抑制奖励机制(RIRM)减少无效反思,在提升精度的同时降低推理 token 消耗。模型权重(16bit 与 4bit)、论文、训练方法和评测结果均已开源。源 Yuan3.0 系列还将陆续发布 Pro(200B)等版本。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成