据 1M AI News 监测,企业 AI 公司 Cohere 发布开源语音识别模型 Transcribe,20 亿参数,基于 Conformer 编码器-解码器架构从头训练,以 Apache 2.0 协议开源,权重已在 HuggingFace 上线。
该模型在 HuggingFace Open ASR Leaderboard 上以平均词错率(WER)5.42% 排名第一,超越 Zoom Scribe v1(5.47%)、IBM Granite 4.0(5.52%)、NVIDIA Canary Qwen(5.63%)、Qwen3-ASR(5.76%)、ElevenLabs Scribe v2(5.83%)和 OpenAI Whisper Large v3(7.44%)。在多说话人环境、会议室声学和多口音场景中均表现领先。人工评测中,Transcribe 在与七个竞品的逐对比较中平均胜率 61%。
模型支持 14 种语言,覆盖英语、法语、德语、中文、日语、韩语、阿拉伯语等。Cohere 表示将把 Transcribe 整合进其 AI Agent 编排平台 North,从单一转录模型演进为企业语音智能的基础组件。
据 1M AI News 监测,开源 AI 编程工具 Cline 发布 Cline Kanban,一款本地运行的看板式多 Agent 调度界面,允许开发者在同一个代码仓库中同时运行多个编程 Agent 并行工作。通过 npm i -g cline 安装,需要 Node.js 18+ 和任意支持的 API 密钥(Anthropic、OpenAI、谷歌、Mistral 等),也可使用免费模型。目前为研究预览版。
核心机制是每张任务卡片自动创建一个独立的 git worktree(临时工作树),每个 Agent 在各自的目录和终端中工作,分支互不干扰,主工作区不受影响。gitignored 文件(如 `node_modules`)通过符号链接共享,无需为每个任务重新安装依赖。开发者可在界面中实时查看每张卡片的代码变更 diff,并像代码审查一样对任意行留下内联评论反馈给 Agent。
任务卡片之间可通过 ⌘+点击建立依赖链:前置任务完成后自动触发下一个任务,配合自动提交和自动创建 PR 功能,形成全自动流水线。该工具还支持从 Linear 导入工单,将整个 Sprint 待办事项一次性转化为 Agent 任务。兼容 Claude Code、OpenAI Codex 和 Cline 自身的 CLI,更多 Agent 即将接入。
Cline 此前以 VS Code 插件起步,已有超过 500 万开发者安装,今年 2 月发布的 CLI 2.0 引入了并行执行和无头 CI/CD 能力,Kanban 是在此基础上的可视化调度层。
据 1M AI News 监测,开源 AI 编程工具 Cline 发布 Cline Kanban,一款本地运行的看板式多 Agent 调度界面,允许开发者在同一个代码仓库中同时运行多个编程 Agent 并行工作。通过 npm i -g cline 安装,需要 Node.js 18+ 和任意支持的 API 密钥(Anthropic、OpenAI、谷歌、Mistral 等),也可使用免费模型。目前为研究预览版。
核心机制是每张任务卡片自动创建一个独立的 git worktree(临时工作树),每个 Agent 在各自的目录和终端中工作,分支互不干扰,主工作区不受影响。gitignored 文件(如 `node_modules`)通过符号链接共享,无需为每个任务重新安装依赖。开发者可在界面中实时查看每张卡片的代码变更 diff,并像代码审查一样对任意行留下内联评论反馈给 Agent。
任务卡片之间可通过 ⌘+点击建立依赖链:前置任务完成后自动触发下一个任务,配合自动提交和自动创建 PR 功能,形成全自动流水线。该工具还支持从 Linear 导入工单,将整个 Sprint 待办事项一次性转化为 Agent 任务。兼容 Claude Code、OpenAI Codex 和 Cline 自身的 CLI,更多 Agent 即将接入。
Cline 此前以 VS Code 插件起步,已有超过 500 万开发者安装,今年 2 月发布的 CLI 2.0 引入了并行执行和无头 CI/CD 能力,Kanban 是在此基础上的可视化调度层。
据 1M AI News 监测,AI 音乐生成平台 Suno 发布 v5.5 模型,称其为「迄今最佳、最具表现力的模型」,同步上线三项个性化功能:Voices、Custom Models 和 My Taste。
Voices 是社区呼声最高的功能,允许 Pro 和 Premier 订阅用户上传或实时录制自己的歌声,用于 AI 音乐创作。系统内置验证流程,要求用户朗读一段随机文本并与上传的歌声进行声纹匹配,防止冒用他人声音。声音档案默认私有,仅本人可使用,Suno 表示未来将开放声音分享,但会确保用户始终拥有控制权。
Custom Models 允许用户上传自己的原创作品,基于 v5.5 训练出了解其风格的个性化模型版本,Pro 和 Premier 用户最多可创建 3 个。My Taste 是偏好学习功能,系统随时间积累用户偏好的曲风和情绪,面向所有用户开放。
Suno 称这些功能为今年晚些时候与音乐行业合作推出的下一代模型奠定基础,去年 11 月 Suno 已与华纳音乐集团达成合作伙伴关系。
据 1M AI News 监测,AI 检索研究公司 SID.ai CEO Max Rumpf 在 X 上发长文,公开指控开源向量数据库 Chroma 刚发布的 Context-1 模型大量借鉴了 SID 去年 12 月发布的 SID-1 研究成果,且未给予任何引用或致谢。
Rumpf 晒出与 Chroma CEO Jeff Huber 的邮件往来作为证据。2025 年 10 月,Huber 主动询问 Rumpf 在训练什么模型,Rumpf 回复称正在做「智能体检索模型,类似 Cognition 的 SWE-grep 但用于通用检索,已经比 Sonnet 4.5 和 Gemini 2.5 Pro 更强」。2025 年 12 月 SID-1 技术报告发布后,Rumpf 再次向 Huber 分享了链接,Huber 回复「恭喜」。两家公司同为 YC 校友,办公室相邻。
SID-1 和 Context-1 均为用强化学习训练的智能体检索模型,均定位为前沿推理模型的检索子代理,均使用合成数据训练,均声称在成本和延迟上达到帕累托前沿。Rumpf 列举的具体相似点包括:Figure 1 采用相同的速度/成本双视图切换、4 路并行推理配合 RRF(倒数排名融合)聚合结果,以及图表、数据集和方法论的整体框架。
Context-1 的技术报告在相关工作章节引用了 WebExplorer、SWE-grep、Search-R1 等同领域研究,但全文未提及 SID-1,基准评测也未将 SID-1 纳入对比。Rumpf 称 Chroma「明知还有另一个模型存在」却声称「帕累托最优」,并指出 Context-1 虽开源了权重,但运行所需的推理框架尚未发布,导致 SID 无法对其进行基准测试。
Rumpf 表示这种做法「完全摧毁了我们(以及其他人)在技术报告中深入分享的动力」,并称之为「学术界令人遗憾的糟糕研究惯例正在向创业公司蔓延」。Chroma 方面截至发稿未公开回应。
据 1M AI News 监测,月之暗面创始人杨植麟在 2026 中关村论坛主持了一场 OpenClaw 与 AI 开源主题圆桌,嘉宾包括智谱华章 CEO 张鹏、AI 算力基础设施公司无问芯穹联合创始人兼 CEO 夏立雪、小米 MiMo 大模型负责人罗福莉和香港大学助理教授黄超,覆盖模型、算力基础设施和 Agent 应用三个层面。
夏立雪给出了一个直观数据:无问芯穹自 1 月底以来 token 用量每两周翻一番,累计已翻十倍,「上次见到这个速度还是 3G 时代手机流量的感觉」。张鹏从模型厂商角度解释了智谱 GLM5 Turbo 近期提价的逻辑:Agent 不再是一问一答,完成一个任务消耗的 token 量可能是回答简单问题的十倍甚至百倍,背后涉及长程任务规划、持续 debug 和多模态信息处理,「长期靠低价竞争不利于整个行业发展」。
罗福莉认为 Agent 时代的核心瓶颈是长上下文的推理成本与速度,只有在百万乃至千万 token 的上下文规模下做到成本够低、速度够快,才会有真正高生产力价值的任务被交给模型。她透露,模型「自进化」已从概念走向实践,在目标明确的科学研究任务上,模型已能自主运行两三天,团队自身的研究效率因此加速近十倍。她还抛出一个问题:推理需求过去一段时间已增长近十倍,今年整体 token 增长会不会到百倍?
黄超从 Agent 应用层拆解了三个技术瓶颈:长链路任务的 planning 能力不足、多 Agent 协作带来的 memory 膨胀压力,以及 skill 生态中低质量工具和恶意注入的风险。他指出,现有框架的记忆管理仍停留在文件系统和 Markdown 格式,未来需要走向分层设计。
圆桌最后,四位嘉宾各用一个词概括未来 12 个月的趋势:
1. 黄超:「生态」,软件将从面向人类转向 Agent Native 设计
2. 罗福莉:「自进化」,称这是「唯一能创造出新东西的地方」
3. 夏立雪:「可持续 token」,希望中国成为世界的 token 工厂
4. 张鹏:「算力」,称十倍增长的背后「还有一百倍的需求没有被满足」
据 1M AI News 监测,AI 智能体公司 Sierra 发布 Ghostwriter,一款「造 Agent 的 Agent」自助工具。企业用户无需工程团队,用自然语言描述客服工作流程,上传现有文档、通话记录甚至白板照片,即可生成覆盖语音、在线聊天和邮件三个渠道、支持 30 多种语言的 AI 客服 Agent。
Sierra 由前 Salesforce CEO、现任 OpenAI 董事长 Bret Taylor 联合创立,估值 100 亿美元,已服务财富 50 强中的 40%。此前部署依赖工程团队定制,Ghostwriter 将这一过程压缩为一场自然语言对话。平台采用模型无关架构,底层调用 OpenAI、Anthropic 和谷歌的模型。Ghostwriter 上线后持续分析真实客户交互,自动定位表现不佳的环节,在沙箱环境中验证改进后自动部署,Sierra 称之为「Agent 流水线」。
定价模式为按结果收费:只有当 Agent 完整解决客户问题且无需转人工时才收取费用。Sierra 此前的定制部署已初步验证这一路径:Rocket Mortgage 的 Agent 将房贷再融资流程从数小时压缩至约 30 分钟,Ramp 的 Agent 独立处理了 90% 的客服请求。
据 1M AI News 监测,OpenClaw 将转入一个即将成立的独立基金会继续开源运营。创始人、奥地利开发者 Peter Steinberger 在加入 OpenAI 后接受 Bloomberg 首次专访时透露,英伟达和字节跳动已确认加入基金会,腾讯正在接洽,也与微软有过沟通。他称自己在这件事上「试图当瑞士」。
OpenAI CEO Sam Altman 此前称 Steinberger 是「天才」,并表示「未来将是极度多 Agent 的,支持开源对我们很重要」。Steinberger 在 OpenAI 加入了 Codex 团队,并透露 Codex 与 OpenClaw 的融合方向:Agent 足够聪明时会自主编写代码来增强自身能力,「编程」与「非编程」的边界正在消失,「这也是我们在 OpenAI 最终决定将两者合一的原因」。他描绘的多 Agent 未来是每个人既有工作 Agent 又有个人 Agent,两者可以互相调用,但各自守住数据边界。
专访中他还谈及中美在 AI Agent 应用上的分歧:「在美国,有些公司你用了 OpenClaw 会被开除;在中国,有些公司你不用才会被开除。」他说中国企业给他展示过一张表格,列出每位员工的名字,旁边有一栏写着「今天自动化了什么?」,在积极推动员工用 AI 将效率提升 10 倍。而在美国,一些公司出于安全顾虑已限制员工使用。Steinberger 认为两种做法都不完美,但美国可以从中国更快拥抱新技术中学到一些东西,「这东西太新了,唯一能学会它的方式就是实际去用、去看」。在 GTC 期间他与 MiniMax、月之暗面、腾讯等中国公司有过交流。
BlockBeats 消息,3 月 27 日,据 GoPlus 援引 Koi 报告,Anthropic 旗下 Claude Chrome 插件存在一个高危提示词注入漏洞,所有低于 1.0.41 版本的插件均受影响。GoPlus 建议用户立即将 Claude 扩展更新至 1.0.41 或以上版本,同时警惕钓鱼链接。
GoPlus 表示,攻击者可通过恶意网页劫持用户的 Claude 插件,并下发恶意 Prompt,无感知接管浏览器会话并实施数据窃取。
[原文链接]据 1M AI News 监测,YC 孵化的 AI 编程基础设施公司 Morph 发布 Claude Code 插件,集成两项核心功能:代码搜索子代理 WarpGrep 和专用上下文压缩模型 FlashCompact。Morph 称该插件可将 Claude Code 长会话的端到端速度提升 37%,同时节省 token 消耗并提高准确率。
FlashCompact 是专为编程代理设计的上下文压缩模型,吞吐量达 33,000 token/s,可在不到 2 秒内将上下文压缩 50%-70%,旨在替代 Claude Code 内置的自动压缩机制。Claude Code 在上下文窗口接近 200K token 上限时会触发自动压缩,但可能丢失文件路径、报错信息和调试状态等关键信息,FlashCompact 声称可将压缩触发频率降低 3-4 倍。WarpGrep 则是一个经强化学习训练的代码搜索子代理,在独立上下文窗口中运行,避免搜索结果污染主代理上下文,单次搜索耗时不到 6 秒,在 SWE-Bench Pro 基准上排名第一。
该插件同时支持 Cursor、Windsurf、Codex、Amp、OpenCode、Antigravity 等 AI 编程工具。Morph 的客户包括 JetBrains、Vercel、Webflow、币安等。