据 1M AI News 监测,AI 音乐公司 ACE Studio 和大模型公司阶跃星辰联合发布开源音乐生成模型 ACE-Step 1.5 XL,在官方评测的歌曲完整性、音乐性、自然度、清晰度、连贯性等 9 项指标上全面超过 Suno v5 和 Udio v1.5 等闭源商业产品,权重以商用许可开源。
模型分两个模块独立工作。第一个是语言模型(LM)规划器:用户输入一句简单描述(如「一首忧伤的民谣,关于离别」),LM 通过思维链推理自动扩展为完整的歌曲蓝图,包括曲风标注、段落结构、歌词生成。第二个是扩散 Transformer(DiT)解码器:接收蓝图后生成最终音频波形。两个模块参数量独立,可自由搭配。
此次发布的 XL 系列使用 40 亿参数的 DiT 解码器(此前版本为 20 亿),提供三个变体:Base 版 50 步推理,质量高且支持音频提取、续写等全部任务;SFT 版同样 50 步,经微调后生成质量最高;Turbo 版经蒸馏压缩至仅 8 步推理,在 A100 上不到 2 秒生成一首完整歌曲,RTX 3090 上不到 10 秒。LM 规划器提供 6 亿、17 亿和 40 亿参数三种规模,与 DiT 解码器自由组合,最小配置仅需 4GB 显存(搭配量化和 CPU 卸载),20GB 以上显存可流畅运行完整版。
功能覆盖面较广:支持从短循环到 10 分钟完整作品,50 余种语言的歌词对齐,翻唱生成、局部重绘、人声转伴奏等编辑能力,用户还可用少量歌曲训练 LoRA 适配器捕捉个人风格。训练数据由授权音乐、免版税作品和 MIDI 合成数据组成,生成内容可直接用于商业场景。