阿里千问全模态大模型Qwen3.5-Omni上线

BlockBeats 消息，3 月 30 日，阿里千问宣布全模态大模型 Qwen3.5-Omni 上线。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三种尺寸的 Instruct 版本，支持 256k 长上下文，模型支持超过 10 小时的音频输入及超过 400 秒的 720P(1FPS) 音视频输入。模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练，该模型展现出卓越的全模态感知与生成能力。相比 Qwen3-Omni,Qwen3.5-Omni 多语言能力大大增强，能够支持 113 种语种和方言的语音识别和 36 种语种和方言的语音生成。(金十)

AI 解读

阿里千问团队近期推出的全模态大模型Qwen3.5-Omni，标志着多模态AI技术进入一个新的成熟阶段。从技术架构和数据处理角度看，它支持长达256k的上下文、10小时音频及400秒720P音视频输入，这背后需要极强的序列建模能力和高效的注意力机制设计。模型在海量多模态数据上进行了预训练，包括文本、视觉和超过1亿小时的音视频数据，这种规模的数据处理不仅依赖算力，更关键的是数据管线的构建和清洗能力，尤其是对多语言、多模态对齐的处理。

从模型系列布局来看，阿里采取了多尺寸策略，包括Plus、Flash、Light等不同规格的Instruct版本，覆盖从边缘设备到高性能服务器的不同场景，体现出对实际应用落地的重视。值得注意的是，Qwen3.5-Omni支持113种语言的语音识别和36种语言的语音生成，其多语言能力的显著提升可能依赖于更丰富的语料和更有效的跨语言表示学习技术。

与此同时，团队在轻量化模型方面也取得突破，例如Qwen3.5小模型系列中9B模型在多项基准测试中超越参数量大其十余倍的模型，这反映出模型架构优化（如Gated Delta Networks与稀疏MoE混合架构）和训练策略的有效性。这类模型尤其适合资源受限的场景，例如边缘计算和终端设备，也符合当前AI应用向本地化、分布式发展的趋势。

不过，技术进展之外，团队人事变动值得关注。多位核心成员在模型发布后相继离职，包括技术负责人林俊旸、后训练负责人郁博文等，这可能对技术路线延续性和团队稳定性带来挑战。林俊旸离职后撰文指出AI正从“训练模型”转向“训练智能体”，强调模型应具备与环境交互、持续学习的能力，这与Qwen3.5-Omni支持长上下文、多模态交互的设计方向是一致的，但也暗示技术迭代中对新范式的探索仍在加速。

另一方面，阿里仍坚持开源策略，在魔搭开发者大会上公开千问和万相系列的开源路线图，涵盖语言、多模态、代码、视频生成等多个方向。开源不仅有助于生态构建，也能吸引社区贡献，缓解内部人才流动可能带来的研发压力。

从行业视角看，Qwen3.5系列在LM Arena等平台取得优异排名，表明其综合能力已进入全球第一梯队，尤其在数学和专家级文本处理等细分任务中表现突出。但与OpenAI、Anthropic等对手的竞争仍依赖持续的技术迭代和人才储备。

最后，数据的重要性在多模态时代愈发凸显。训练如Qwen3.5-Omni这类模型需要极大规模的高质量多模态数据，而数据获取、清洗、标注及合规使用仍是行业瓶颈。加密技术、联邦学习等方案可能在保障数据隐私的前提下促进数据流动，但如何平衡数据利用与权限管理仍是待解难题。

总体而言，Qwen3.5-Omni的发布体现了多模态AI技术的快速演进，其在架构设计、规模控制和多语言处理方面的突破为行业提供了重要参考。然而，技术之外的团队稳定性、开源生态建设以及数据策略同样影响着模型的长期发展。

展开

纠错/举报