据 1M AI News 监测,通义实验室发布全模态模型 Qwen3.5-Omni,支持文本、图片、音频和音视频输入,并可生成带时间戳的细粒度音视频 Caption。官方称,Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA,相关能力超过 Gemini-3.1-Pro。
这次最特别的增量不是榜单,而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称,模型未经过专门训练,已经能根据音视频指令直接生成可运行代码。官方还称,该模型支持 256K 上下文、113 种语言识别,可处理 10 小时音频或 1 小时视频,并原生支持 WebSearch 和复杂 Function Call。
Qwen3.5-Omni 延续 Thinker-Talker 分工架构,两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸,并上线实时版本 Qwen3.5-Omni-Plus-Realtime。
BlockBeats 消息,3 月 30 日,阿里千问宣布全模态大模型 Qwen3.5-Omni 上线。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三种尺寸的 Instruct 版本,支持 256k 长上下文,模型支持超过 10 小时的音频输入及超过 400 秒的 720P(1FPS) 音视频输入。模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练,该模型展现出卓越的全模态感知与生成能力。相比 Qwen3-Omni,Qwen3.5-Omni 多语言能力大大增强,能够支持 113 种语种和方言的语音识别和 36 种语种和方言的语音生成。(金十)
据 1M AI News 监测,微软在 Hugging Face 开源多语言文本嵌入模型家族 harrier-oss-v1,包含 270M、0.6B 和 27B 三档。模型卡显示,这一系列采用 decoder-only 架构、last-token pooling 和 L2 归一化,最长支持 32768 token,可用于检索、聚类、语义相似度、分类、双语挖掘和重排序。
Multilingual MTEB v2 是业内常用的多语言文本嵌入基准,主要测试检索、分类、聚类和语义相似度等任务。微软模型卡称,三档模型在该基准上的分数分别为 66.5、69.0 和 74.3,其中 27B 版在发布当日登上榜首。270M 和 0.6B 版本还额外使用更大嵌入模型进行知识蒸馏,三款模型均以 MIT 许可证发布。
据 1M AI News 监测,前特斯拉总裁、DVx Ventures 联合创始人 Jon McNeill 接受 Axios 采访时称,OpenAI CEO Sam Altman 与马斯克的关系已经「坏到极点」,「如果 Elon 做一件事,Sam 看着他,就会说,我要反着来」。McNeill 还表示,他感觉 Anthropic CEO Dario Amodei「几乎不尊重马斯克的伦理观,甚至完全没有尊重」。
McNeill 认为,AI 公司高层正把马斯克的做事方式视为威胁,而不只是商业竞争。Axios 在文中提到,OpenAI 和 Anthropic 均拒绝置评,马斯克未回应采访请求。
据 1M AI News 监测,月之暗面在 3 月初、Kimi K2.5 发布一个月后,ARR(年度经常性收入)突破 1 亿美元。知情人士还称,K2.5 上线后,API 供应的 TPM(每分钟令牌数)配额迅速趋紧,有客户开出千万美元级别的消费承诺和预付担保,以争取优先供应。
[原文链接]据 1M AI News 监测,谷歌 AI 编程工具 Antigravity 近期更新后,用户反映所有模型频繁出现「high traffic」容量错误,复杂任务无法完成。Reddit r/google_antigravity 社区和 Google AI 开发者论坛近日出现大量类似投诉,付费订阅用户同样受影响。
这是 Antigravity 三月以来持续容量困境的延续。v1.20.5(3 月 9 日)修复了一个 token 计量 bug,但同期引入的 AI Credits 计费系统导致积分消耗异常,部分用户配额被锁定长达 7 天。
3 月中旬谷歌将 Antigravity 从免费转向积分付费模式后,开发者社区不满持续发酵。目前社区中流传的临时方案包括在设置中关闭 AI Credits、回退至 v1.19.6 等。
[原文链接]据 1M AI News 监测,法国 AI 公司 Mistral 完成 8.3 亿美元债务融资,用于在欧洲建设自有 AI 数据中心,这是该公司首次通过债务方式募资。贷款方包括法国国家投资银行 Bpifrance、法国巴黎银行、汇丰银行和三菱日联金融集团。
首个设施位于巴黎南部布吕耶尔勒沙泰勒,配备 13,800 块英伟达 GB300 芯片,计划 6 月底前投入运营。Mistral 此前已宣布 40 亿欧元基础设施计划,包括在瑞典建设 12 亿欧元的数据中心,目标是到 2027 年底在欧洲部署 200 兆瓦 AI 算力。
CEO Arthur Mensch 称,欧洲主权 AI 需求正在推动公司增长,超过一半的收入来自欧洲客户。Mistral 目前估值约 120 亿欧元(此前完成由 ASML 领投的 17 亿欧元股权融资),预计年底前年化营收将达到 10 亿美元。
据 1M AI News 监测,Elastic 副总裁、AI 搜索基础设施公司 Jina AI 创始人 Han Xiao 在 X 上分享了一项实验:用 KV 缓存替代向量数据库、嵌入模型和整套 RAG 流水线,实现「无向量搜索」。
他在 L4 GPU(生产环境常用的低成本显卡)上将 Qwen 3.5-35B-A3B 模型的 262K 上下文窗口预填充至 99%(258K token),预计算的 KV 缓存存储后用户加载仅需约 1 秒,系统提示词和查询拼接在末尾,生成约 3K token 即可完成一次检索,解码速度约 20 token/秒。运行成本约 $0.26/小时(L4 竞价实例),单个 LLM 完成全部工作,无需向量数据库、嵌入模型或流水线工程。
Han Xiao 在 Jina AI 论文和中英文小说数据集上测试,称结果「相当不错」,存在少量幻觉但多数回答准确且有据可循。他指出 KV 缓存作为文档存储并非新想法(此前 CAG 论文已提出),但量化 KV 缓存和现代注意力机制(混合 SSM-attention、GQA、MQA、MLA)正在快速改变其经济性。这种方案的理论召回率是完美的,因为查询对全部文档执行完整注意力计算,没有分块损失或检索遗漏。
上限也很明显:262K token 大约相当于一本书,扩展到企业知识库规模需要多槽路由机制。他已上线在线演示,并向 llama.cpp 提交了修复超长上下文(>200K)KV 缓存复用问题的 PR。Han Xiao 写道:「如果我们解决冷预填充速度和解码速度的问题,而低成本 GPU 价格持续下降,搜索的未来可能不需要向量。激进,但有可能。」
据 1M AI News 监测,百度飞桨开源 OCR 工具库 PaddleOCR 以 73,300 GitHub 星标超越谷歌维护的老牌 OCR 引擎 Tesseract(73,200),成为 GitHub 上星标最高的 OCR 项目。排名第三的 MinerU 为 57,500 星标。PaddleOCR 于 2020 年开源,支持 100+ 语言,覆盖 160+ 国家和地区。
PaddleOCR 近期密集更新,上周发布的 PP-OCRv5 仅 500 万参数,在标准 OCR 基准上达到与十亿参数级视觉语言大模型相当的精度;PaddleOCR-VL-1.5 在文档解析基准 OmniDocBench v1.5 上以 94.5% 准确率刷新纪录。
据 1M AI News 监测,前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了近期三篇 Agent 模型技术报告后发现,月之暗面(Kimi K2.5)、AI 编程工具 Cursor(Composer 2)和向量数据库公司 Chroma(Context-1)在独立开发过程中,收敛到了高度相似的强化学习训练范式。
四个共同点:
1. 从强基座模型出发,不从零训练:月之暗面扩展 Kimi K2,Cursor 以 Kimi K2.5(1 万亿参数/320 亿活跃 MoE)为基座,Chroma 基于 gpt-oss-20B
2. 在生产级环境中训练:三个团队均用与线上一致的工具链和执行环境跑 RL rollout
3. 基于可验证结果的奖励信号,辅以生成式奖励模型(GRM)处理开放式任务
4. 异步大规模并行生成训练轨迹
三家各自的创新点不同:
· Kimi K2.5 的 Agent Swarm 通过 RL 让模型学会将任务动态拆解为并行子任务,由可训练的编排器调度冻结的子 Agent 执行,在 BrowseComp 基准上以 78.4% 超过 GPT-5.2 Pro 的 77.9%,推理延迟降低最多 4.5 倍。
· Cursor 的 Composer 2 用自动摘要机制应对长编码会话的上下文膨胀,并从生产流量中实时提取 RL 训练信号,整个循环约 5 小时,每天可部署多个新版本。
· Chroma 的 Context-1 是一个 200 亿参数的搜索 Agent,核心技巧是「自编辑上下文」,模型学会主动丢弃无关检索结果以腾出空间继续搜索,在检索任务上以远低于前沿模型的成本和约 10 倍的速度达到可比精度。
Schmid 还注意到,三个团队都经历了反复的奖励黑客修复周期。Cursor 的模型学会了发送格式错误的工具调用来规避惩罚,Kimi 的编排器会退化为串行执行或刷并行奖励却不拆分真实任务,Chroma 的 Agent 则收敛为「搜一次就停」。每种退化行为都需要针对性地调整奖励函数。