header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

情感语音AI公司Hume AI首次开源TTS模型TADA:1000+测试样本零内容幻觉,比同级LLM语音合成快5倍

据 1M AI News 监测,情感语音 AI 公司 Hume AI 首次开源了 TTS(文本转语音)模型 TADA(Text-Acoustic Dual Alignment)。该模型的核心创新是将文本 token 与声学特征做 1:1 对齐,在单一同步流中同时生成文本和语音,从根本上消除了传统 LLM TTS 中因音频序列远长于文本序列而导致的幻觉问题。

官方公布的性能数据:在 1000+ 测试样本中实现零内容幻觉(传统系统常出现漏词、多词等问题),推理速度比同级 LLM TTS 快 5 倍。在相同的 2048 个 token 预算下,TADA 可覆盖约 700 秒音频,而传统系统仅覆盖约 70 秒,同时附带免费文本转录且不增加延迟。代码和预训练模型已在 PyPI 上开放下载。

Hume AI 由心理学博士 Alan Cowen 创立,专注于理解和生成具有情感表达能力的语音 AI。今年 1 月,Cowen 和约 7 名核心工程师被谷歌 DeepMind 以 IP 授权模式引入(非收购),用于增强 Gemini 的情感语音能力。Hume AI 在新任 CEO Andrew Ettinger 领导下继续独立运营。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成