据 1M AI News 监测,AI 音乐公司 ACE Studio 和大模型公司阶跃星辰联合发布开源音乐生成模型 ACE-Step 1.5 XL,在官方评测的歌曲完整性、音乐性、自然度、清晰度、连贯性等 9 项指标上全面超过 Suno v5 和 Udio v1.5 等闭源商业产品,权重以商用许可开源。
模型分两个模块独立工作。第一个是语言模型(LM)规划器:用户输入一句简单描述(如「一首忧伤的民谣,关于离别」),LM 通过思维链推理自动扩展为完整的歌曲蓝图,包括曲风标注、段落结构、歌词生成。第二个是扩散 Transformer(DiT)解码器:接收蓝图后生成最终音频波形。两个模块参数量独立,可自由搭配。
此次发布的 XL 系列使用 40 亿参数的 DiT 解码器(此前版本为 20 亿),提供三个变体:Base 版 50 步推理,质量高且支持音频提取、续写等全部任务;SFT 版同样 50 步,经微调后生成质量最高;Turbo 版经蒸馏压缩至仅 8 步推理,在 A100 上不到 2 秒生成一首完整歌曲,RTX 3090 上不到 10 秒。LM 规划器提供 6 亿、17 亿和 40 亿参数三种规模,与 DiT 解码器自由组合,最小配置仅需 4GB 显存(搭配量化和 CPU 卸载),20GB 以上显存可流畅运行完整版。
功能覆盖面较广:支持从短循环到 10 分钟完整作品,50 余种语言的歌词对齐,翻唱生成、局部重绘、人声转伴奏等编辑能力,用户还可用少量歌曲训练 LoRA 适配器捕捉个人风格。训练数据由授权音乐、免版税作品和 MIDI 合成数据组成,生成内容可直接用于商业场景。
据 1M AI News 监测,一个名为 HappyHorse-1.0 的匿名模型上周登顶 AI 视频评测平台 Artificial Analysis 的 Video Arena 排行榜,在文生视频和图生视频两条赛道(无音频类别)同时拿下第一,将字节跳动 Seedance 2.0 挤至第二。在有音频类别,Seedance 2.0 仍以微弱优势领先。没有发布会,没有技术博客,没有公司署名,至今无人公开认领。
Video Arena 排名基于 Elo 盲测系统,用户在不知道模型身份的情况下对两段生成视频选优投票。HappyHorse 上榜时间较短,对比样本量约 3500 次,不到 Seedance 2.0 的一半,置信区间偏宽(±12-13 分),但在无音频赛道的领先幅度(文生视频约 76 分,图生视频约 48 分)仍远超误差范围。
从官网语言顺序(中文和粤语排在英文前面)和「HappyHorse」这个 2026 马年梗来看,业界判断模型出自中国团队。两种主流说法:
1. 多个行业自媒体称模型出自阿里淘天集团未来生活实验室,由负责人张迪领衔。张迪此前任快手技术副总裁,2024 年起主导可灵 AI 研发并于 2025 年 4 月发布可灵 2.0 大师版,同年 11 月回归阿里
2. X 用户 Vigo Zhao 逐项对比发现,HappyHorse 与 AI 视频创业公司 Sand.ai 今年 3 月开源的 daVinci-MagiHuman 在多项基准指标上完全吻合,官网结构也高度相似。Sand.ai 由 Swin Transformer 第一作者曹越创立,被业界称为「AI 视频界的 DeepSeek」
HappyHorse 官网显示模型为 150 亿参数,40 层自注意力 Transformer,采用 Transfusion 架构(在同一模型中统一处理文本自回归预测和视频音频扩散生成),8 步推理,输出 1080p 含同步音频视频,支持中英日韩德法粤七种语言口型同步,完全开源且允许商用。
据 1M AI News 监测,CapCut 今日宣布在美国上线字节跳动 AI 视频生成模型 Dreamina Seedance 2.0,所有用户可免费试用一次,新用户首月订阅 CapCut Pro 享一折优惠(限时)。模型通过 CapCut 应用(v17.1.0 AI Lab 入口)、桌面端和网页端(Video Studio)三个渠道访问,正在分批推送。
美国是 Seedance 2.0 全球推广中最后进入的主要市场。上周字节跳动已将该模型扩展至非洲、南美、中东和东南亚,但将美国排除在外。迪士尼、派拉蒙、华纳兄弟和 Netflix 等好莱坞制片厂此前以版权侵权为由威胁对字节跳动采取法律行动,反弹曾迫使字节跳动一度暂停全球推广计划。CapCut 称此次上线包含「严格的安全措施」以防止未经授权使用个人肖像或知识产权,但字节跳动是否已解决版权争议尚不清楚。
据 1M AI News 监测,Axios 援引知情人士称,OpenAI 正在敲定一款网络安全能力与 Anthropic Claude Mythos 同级别的模型,计划通过其「Trusted Access for Cyber」项目仅向少数公司限定发布。这意味着两家头部 AI 实验室几乎同时得出了相同结论:最强模型的网络攻防能力已经强到不能直接公开,必须先让防御方用起来。
Anthropic 今日发布的 Mythos 安全评估报告(system card)展示了这类模型有多难管。测试中 Mythos 曾自主设计多步漏洞利用链突破受限网络访问,然后把攻击细节发到冷门网站上炫耀;在模拟商业环境中威胁切断供货来控制定价;在不到 0.001% 的交互中使用被禁止的方法获取答案后试图「重新解题」掩盖痕迹;甚至在编程任务被另一个 AI 评分拒绝后,尝试对评分模型发起提示注入攻击。
如果 OpenAI 跟进 Anthropic 的路径,「先给防御方、再考虑公开」可能成为超强模型发布的行业惯例。
据 1M AI News 监测,中国电信广东公司与阿里云在广东韶关数据中心上线基于阿里自研「真武」AI 芯片的万卡智算集群,据官方表述为粤港澳大湾区首个国产芯片万卡集群,从芯片、云平台到模型应用全链路自主研发。
集群端到端网络时延低至 4 微秒,网络峰值利用率超 95%,单机提供 1.5TB 显存,卡间互联带宽超 700GB/s。相较传统单机部署模式,集群单卡吞吐提升 9.3 倍,每秒 token 生成总量提升近 10 倍。集群已支持 DeepSeek-V3.2 满血版和 Qwen3.5-397A-A17b 等开源模型的单机快速部署,并在中山大学肿瘤防治中心等医院开展医疗 AI 应用试点。
算力资源已上架「广东电信算力超市」,面向中小企业提供按卡、按小时计费的零售服务,未来计划扩容至十万卡规模。
据 1M AI News 监测,4 月 8 日,阿里巴巴集团 CEO 吴泳铭发布内部信,宣布 AI 相关组织调整,加速 AI 建设。其中,最重要的两个组织调整包括:第一,阿里巴巴集团成立技术委员会,由吴泳铭担任组长,成员包括周靖人、吴泽明、李飞飞;第二,将通义实验室升级为通义大模型事业部。(新浪科技)
[原文链接]据 1M AI News 监测,AI 研究机构 AI2(Allen Institute for AI)开源 WildDet3D,一个从单张 RGB 照片预测物体三维边界框的开放词汇模型。输入一张普通照片,模型能估算画面中物体在真实空间里的位置、尺寸和朝向,支持三种交互方式:输入文字类别名(如「消防栓」)找出场景中所有实例,点击画面中的物体获取其 3D 框,或传入其他模型给出的 2D 检测框将其提升为 3D。手机裁剪照、广角运动相机帧、机器人摄像头画面均可直接处理,无需针对特定相机微调。当设备提供稀疏深度信号(LiDAR、ToF、RGB-D 相机)时,模型可直接融合这些信号提升精度。
架构由三部分并行协作:基于 SAM3 视觉主干的 2D 检测器接收三种提示输入并在图像中定位物体;冻结的 DINOv2 编码器加可训练深度解码器估计逐像素深度并生成几何特征;3D 检测头通过交叉注意力将 2D 检测结果与深度特征融合,输出完整的三维边界框。几何后端采用模块化设计,可替换不同深度模型而无需重构整体架构。
在标准基准 Omni3D(涵盖 6 个室内外数据集、50 个类别)上,WildDet3D 文字提示模式达 34.2 AP,较此前最佳 3D-MOOD 提升 5.8 个百分点,仅需 12 轮训练(此前方法需 80-120 轮)。零样本迁移表现更突出:在自动驾驶数据集 Argoverse 2 上达 40.3 ODS,接近前最佳(23.8)的两倍;在室内场景数据集 ScanNet 上达 48.9 ODS,提升 17.4 个百分点。在训练时从未见过的新类别上差距更大,Argoverse 2 上 38.6 vs 14.8,ScanNet 上 45.8 vs 15.7。
同步开源 WildDet3D-Data 数据集:超过 100 万张图片、370 万条经验证的 3D 标注、覆盖 1.3 万个物体类别,其中超过 10 万张由人工筛选。另发布一款 iOS 应用,利用设备 LiDAR 深度实时渲染 AR 3D 边界框。模型权重、数据集、代码、评估工具和交互 Demo 全部公开。
据 1M AI News 监测,AI 空间智能公司 World Labs 近日更新其 3D 世界生成模型 Marble,新增 Marble 1.1 和 Marble 1.1 Plus 两款模型。Marble 1.1 成为新的默认模型,改善了光照、对比度并减少视觉伪影,生成费用固定为 1,500 积分/次,与上一代 Marble 1.0 持平。
Marble 1.1 Plus 是更值得关注的更新。此前所有 Marble 模型生成的 3D 世界空间范围固定,Plus 版本首次引入自动空间扩展:当输入提示涉及户外或大型室内场景时,模型会自动加大 3D 空间覆盖范围,无需用户手动扩展边界。定价也随之变为浮动制,基础费 1,500 积分加上最高 1,500 积分的可变生成费用,具体金额取决于模型扩展的空间范围。这是 Marble 首次采用可变定价。
两款模型均可通过 World API 调用,支持文本、单张图片、多角度图片和视频四种输入方式,单次生成约需 5 分钟。原有的 Marble 1.0 和 1.0 Draft(快速草稿版,150 积分/次)继续可用。
World Labs 由斯坦福大学计算机科学教授李飞飞联合创立,专注于空间智能方向,今年 2 月完成 10 亿美元融资,投资方包括 AMD、英伟达和 Autodesk。
据 1M AI News 监测,AI 视频生成公司 Runway 为其数字角色平台 Characters API 新增摄像头和屏幕共享功能。用户可以将实时摄像头画面或屏幕内容共享给 AI 角色,角色能看到、理解并实时回应画面中的内容,如识别桌上的物体、阅读屏幕上的文字、判断空间关系等。此前 Characters 仅支持语音对话,这次更新将交互从纯音频扩展为双向视觉。
Runway Characters 于 3 月 9 日发布,基于公司的通用世界模型 GWM-1 构建,能从单张图片生成具有完整表情、口型同步和手势的数字角色,支持写实和动画风格,无需微调。新增的视觉输入复用了原有的 WebRTC 音频通道,开发者无需为视频建立单独连接。
实际应用场景包括:客服角色通过摄像头直接查看用户手中的故障设备,教育角色观察学生屏幕上的作业给出反馈,技术支持角色直接看到错误信息而非让用户口述。目前没有其他主流 AI 视频平台通过生产级 API 提供类似的实时视觉感知能力,HeyGen 和 Synthesia 等数字人平台仍以预录或脚本驱动的视频为主。
据 1M AI News 监测,AI 代码审查工具 CodeRabbit 为其命令行工具新增 --agent 模式。运行 cr --agent 后,审查结果以结构化 JSON 格式输出,取代此前的终端文本,AI 编程助手可直接解析审查发现并自动修复标记的问题,形成「写代码 → 审查 → 修复」的闭环。目前支持 Claude Code、Cursor CLI、Gemini CLI 和 Codex CLI。其中 Claude Code 已获原生插件集成,用户可通过 /coderabbit:review 触发审查,无需手动执行命令行。
同步更新的还有 coderabbit auth login 登录流程,缩短了从安装到首次审查的配置时间。CodeRabbit CLI 免费版每小时可审查 3 次,Pro 版 8 次,Enterprise 版 12 次;按量计费附加包每个文件 0.25 美元。