header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

通义把Vibe Coding塞进全模态,Qwen3.5-Omni称拿下215项SOTA

1M AI News 监测,通义实验室发布全模态模型 Qwen3.5-Omni,支持文本、图片、音频和音视频输入,并可生成带时间戳的细粒度音视频 Caption。官方称,Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA,相关能力超过 Gemini-3.1-Pro。

这次最特别的增量不是榜单,而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称,模型未经过专门训练,已经能根据音视频指令直接生成可运行代码。官方还称,该模型支持 256K 上下文、113 种语言识别,可处理 10 小时音频或 1 小时视频,并原生支持 WebSearch 和复杂 Function Call。

Qwen3.5-Omni 延续 Thinker-Talker 分工架构,两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸,并上线实时版本 Qwen3.5-Omni-Plus-Realtime。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成