据 1M AI News 监测,企业 AI 公司 Cohere 发布开源语音识别模型 Transcribe,20 亿参数,基于 Conformer 编码器-解码器架构从头训练,以 Apache 2.0 协议开源,权重已在 HuggingFace 上线。
该模型在 HuggingFace Open ASR Leaderboard 上以平均词错率(WER)5.42% 排名第一,超越 Zoom Scribe v1(5.47%)、IBM Granite 4.0(5.52%)、NVIDIA Canary Qwen(5.63%)、Qwen3-ASR(5.76%)、ElevenLabs Scribe v2(5.83%)和 OpenAI Whisper Large v3(7.44%)。在多说话人环境、会议室声学和多口音场景中均表现领先。人工评测中,Transcribe 在与七个竞品的逐对比较中平均胜率 61%。
模型支持 14 种语言,覆盖英语、法语、德语、中文、日语、韩语、阿拉伯语等。Cohere 表示将把 Transcribe 整合进其 AI Agent 编排平台 North,从单一转录模型演进为企业语音智能的基础组件。