通义把Vibe Coding塞进全模态，Qwen3.5-Omni称拿下215项SOTA

据 1M AI News 监测，通义实验室发布全模态模型 Qwen3.5-Omni，支持文本、图片、音频和音视频输入，并可生成带时间戳的细粒度音视频 Caption。官方称，Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA，相关能力超过 Gemini-3.1-Pro。

这次最特别的增量不是榜单，而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称，模型未经过专门训练，已经能根据音视频指令直接生成可运行代码。官方还称，该模型支持 256K 上下文、113 种语言识别，可处理 10 小时音频或 1 小时视频，并原生支持 WebSearch 和复杂 Function Call。

Qwen3.5-Omni 延续 Thinker-Talker 分工架构，两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸，并上线实时版本 Qwen3.5-Omni-Plus-Realtime。

原文链接

纠错/举报