开源音乐模型ACE-Step1.5XL发布，评测全面超Suno v5，消费级显卡可跑

据 1M AI News 监测，AI 音乐公司 ACE Studio 和大模型公司阶跃星辰联合发布开源音乐生成模型 ACE-Step 1.5 XL，在官方评测的歌曲完整性、音乐性、自然度、清晰度、连贯性等 9 项指标上全面超过 Suno v5 和 Udio v1.5 等闭源商业产品，权重以商用许可开源。

模型分两个模块独立工作。第一个是语言模型（LM）规划器：用户输入一句简单描述（如「一首忧伤的民谣，关于离别」），LM 通过思维链推理自动扩展为完整的歌曲蓝图，包括曲风标注、段落结构、歌词生成。第二个是扩散 Transformer（DiT）解码器：接收蓝图后生成最终音频波形。两个模块参数量独立，可自由搭配。

此次发布的 XL 系列使用 40 亿参数的 DiT 解码器（此前版本为 20 亿），提供三个变体：Base 版 50 步推理，质量高且支持音频提取、续写等全部任务；SFT 版同样 50 步，经微调后生成质量最高；Turbo 版经蒸馏压缩至仅 8 步推理，在 A100 上不到 2 秒生成一首完整歌曲，RTX 3090 上不到 10 秒。LM 规划器提供 6 亿、17 亿和 40 亿参数三种规模，与 DiT 解码器自由组合，最小配置仅需 4GB 显存（搭配量化和 CPU 卸载），20GB 以上显存可流畅运行完整版。

功能覆盖面较广：支持从短循环到 10 分钟完整作品，50 余种语言的歌词对齐，翻唱生成、局部重绘、人声转伴奏等编辑能力，用户还可用少量歌曲训练 LoRA 适配器捕捉个人风格。训练数据由授权音乐、免版税作品和 MIDI 合成数据组成，生成内容可直接用于商业场景。

原文链接

纠错/举报