header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP
全部
预测市场
AI
链上侦探
融资
2026-04-02
订阅推送
自动更新

1M AI News 监测,AI 模型推理平台 Baseten 的模型开发团队发布 STILL,一种用单次前向传播将 LLM 的 KV 缓存(模型推理时存储的上下文信息)压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒,抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差,但每段新上下文都要做独立优化:MIT 的 Attention Matching 需秒到分钟,斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器(SAE)对字典学习的摊销:不再为每段上下文单独优化,而是学一个固定编码器一次前向传播搞定,速度快了几个数量级。

架构是一个 Perceiver 瓶颈网络,在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存,经自注意力互相协调以避免信息重复捕获,最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下文一样注意这组紧凑缓存。整个 LLM 冻结,只训练约 710 万个参数(占基座模型 Qwen3-4B 的 0.18%),目标是让紧凑缓存下的输出分布逼近完整缓存(KL 蒸馏)。

方案能跑通依赖三个关键修复。LLM 的键带有旋转位置编码(RoPE),混合不同位置的键会破坏位置信号,团队用「反旋转→压缩→重旋转」流水线解决。标准 Perceiver 末端的归一化层会抹掉键值向量的范数变化,而 LLM 注意力依赖这些信息,移除后效果改善。最关键的是初始化:随机初始化将潜在向量数量上限锁死在 128,超过就发散。团队将压缩器初始化为近似恒等映射,让每个潜在向量起步就是邻域输入的近拷贝,此后从「位置复制」逐步过渡到「内容感知压缩」,上限从 128 扩展到 8192。

实验在 Qwen3-4B 上完成,8K 上下文,8 块 H200 训练。8 倍压缩下,金融和代码领域问答准确率 86%-90%,法律和文学文本稍低(信息更分散,更难压缩)。压缩比固定 8 倍时,上下文从 1K 到 8K 变化,准确率稳定在 85%-92%。跨领域迁移强于预期:金融训练的压缩器评估法律文本 74%,代码训练的在所有领域均达 78%-89%,说明压缩器捕获了 Qwen3-4B 注意力机制中某种跨领域通用的结构。

团队将 STILL 定位为 LLM 持续学习三步路线图的第一步。当前 LLM 记忆只有两个极端:无损但线性增长的 KV 缓存,和高度有损的权重更新及外挂存储。STILL 补上中间一层,即有损但高保真的压缩工作记忆。下一步是迭代压缩:逐块处理文档,每压缩一块就拼到下一块前面再压缩,理论上可用固定大小记忆处理任意长度文本。更远期的设想是让模型通过强化学习自主管理记忆,以及通过超网络将压缩记忆回写权重,实现跨会话知识积累。

研究由 Baseten 模型开发团队负责人 Charlie O'Neill 与 Alex Sandomirsky、Harry Partridge 合著。O'Neill 曾在牛津大学攻读机器学习博士,是 AI 模型公司 Parsed 联合创始人,Parsed 于 2025 年底被 Baseten 收购。

[原文链接]

1M AI News 监测,Axios 刊发分析文章称,AI 竞赛越来越不像模型竞争,而像一道资本分配题。算力采购需提前一到两年锁定,买多了亏到破产,买少了客户跑光。Anthropic CEO Dario Amodei 在 Dwarkesh Podcast 中的原话是:如果按每年 10 倍增速采购,实际只有 5 倍或晚了一年,「世上没有任何对冲工具能阻止破产」。而算力单位成本确实在降,但用量涨得更快,总支出持续攀升,是经典的杰文斯悖论。

文章指出,这道题目前没有人答对。Anthropic 选择克制,宁愿限流丢客户也不超买,训练任务避开用户高峰;OpenAI 选择激进,在算力上大举投入。两种策略各有代价:Anthropic 的付费用户频繁撞上限流和中断,半导体分析机构 SemiAnalysis 的 Dylan Patel 警告其可能被迫转向质量较低的算力;OpenAI 的支出纪律则已反映在二级市场上,投资者正从 OpenAI 转向 Anthropic。超大规模云厂商今年 AI 资本支出预计接近 7000 亿美元,即便在这个创纪录水平上,全行业的算力供应仍然追不上需求。越接近 IPO,这道题的答案就越难藏。

[原文链接]

1M AI News 监测,Meta 开源混凝土配方优化模型 BOxCrete(Bayesian Optimization for Concrete),基于公司内部的自适应实验平台 Ax 构建,通过贝叶斯优化从历史配方数据中学习,逐步逼近最优配比。配套发布的开放数据集包含 69 种砂浆和 54 种混凝土配方在 5 个养护龄期的超过 500 条强度测量记录,模型和数据均以 MIT 许可证在 GitHub 开源。

实战验证在 Meta 位于明尼苏达州 Rosemount 的数据中心完成。该数据中心的地面板承载冷却系统和数千台服务器,是整个建筑中荷载要求最高的部分。BOxCrete 生成的混凝土配方达到完全结构强度的速度比原方案快 43%,开裂风险降低近 10%,已被批准用于该设施的更多区域。

合作方包括伊利诺伊大学厄巴纳-香槟分校和北美最大水泥制造商 Amrize(旗下 18 座水泥厂和 269 个预拌站点)。Amrize 已承诺 2026 年投入近 10 亿美元用于美国本土产能建设,并推出了「Made in America」水泥标签。宾夕法尼亚州的混凝土软件供应商 Quadrel 已将 Meta 的开源框架集成到其面向预拌生产商的 SaaS 平台中。

美国约 20%-25% 的水泥依赖进口,水泥和混凝土行业年贡献超过 1300 亿美元、支撑约 60 万个就业岗位。BOxCrete 的设计目标是帮助生产商在使用本土原材料的同时维持混凝土质量和可持续性。AI 正在优化建造 AI 基础设施本身所需的物理材料,这个闭环本身就是 AI 渗透传统工业的一个缩影。

[原文链接]

1M AI News 监测,OpenAI 下周将配合新模型 Spud 的发布,推出一批关于超智能的政策论文和提案,主题包括产业政策和 AI 带来的就业冲击,由 CEO Sam Altman、首席未来学家 Joshua Achiam 和全球事务副总裁 Chris Lehane 牵头。

知情人士透露,提案会涉及「重新思考社会契约」和「让超智能为所有人服务」,其中有些内容可能引发争议,目的是把 AI 讨论从技术圈拉到更大的公共层面。OpenAI 过去几周刚砍掉 Sora、退出迪士尼授权、取消情色伴侣计划,产品部门改名叫「AGI Deployment」,1220 亿美元融资到账,年内还要 IPO。在 2026 年中期选举即将到来、AI 民意支持率低迷的背景下,OpenAI 显然想抢在监管落地前定义议题。

不过 OpenAI 高层自己在 AI 政治上就没对齐。Achiam 此前在 X 上公开批评亲 AI 游说团体花钱攻击支持监管的纽约国会众议员候选人 Alex Bores,称这「日后会被视为毫无意义的自摆乌龙」。这被广泛解读为在说 OpenAI 总裁 Brockman,后者正是那个反监管超级政治行动委员会的主要金主。一边喊「重新思考社会契约」,一边砸钱打压主张监管的候选人,OpenAI 内部对怎么跟政府打交道,显然还没想清楚。

[原文链接]

1M AI News 监测,IDC 最新报告显示,2025 年中国市场 AI 加速卡总出货量约 400 万张。国产厂商合计交付 165 万张,占比 41%。英伟达仍以约 220 万张位居首位,但份额已从制裁前的约 95% 降至 55%,三年丢掉 40 个百分点。AMD 出货约 16 万张,占比 4%。

国产阵营中,华为以约 81.2 万张排名首位,占全市场约 20%,贡献了国产出货量的近一半。其余厂商:

1. 平头哥(阿里巴巴旗下芯片设计公司)约 26.5 万张,国产第二
2. 百度昆仑芯与 AI 芯片公司寒武纪各约 11.6 万张,并列国产第三
3. 海光、GPU 初创公司沐曦和天数智芯分别占国产出货量的 5%、4%、3%

2025 年中央政府启动新一轮 AI 基础设施投入,各省加速建设智算中心,多地要求政府和国企数据中心优先采购国产芯片。黄仁勋此前公开表示英伟达在中国高端训练芯片市场的份额已「从 95% 跌到了零」,当前 55% 的整体份额主要依靠推理芯片和中低端市场支撑。出口管制切断了英伟达最先进产品的供应渠道,但也为国产厂商打开了此前不存在的市场空间。

[原文链接]

1M AI News 监测,北卡罗来纳大学教堂山分校 AIMING Lab 助理教授姚骅修在 X 上宣布开源 AutoHarness(简称 Aha),一个面向 AI Agent 的轻量级治理框架,MIT 许可证,不绑定任何 LLM 供应商,两行代码即可接入现有客户端。

AutoHarness 的核心理念是将 Agent 拆成两层:模型负责推理,Harness 负责其余一切。上下文管理、工具权限控制、成本追踪、可观测性、会话持久化,这些将 Agent 从演示品变成生产系统的工程能力,被统称为「harness engineering」。

治理管线分三档。Core 模式 6 步(解析验证→风险分类→权限检查→执行→输出清洗→审计日志),适合轻量场景;Standard 模式 8 步,增加风险分类器和前置钩子,面向生产环境;Enhanced 模式 14 步,支持多 Agent 分叉、集群和后台执行,为默认模式。每次工具调用都经过完整管线,内置风险模式匹配可拦截危险操作(如 `rm -rf /`)、密钥泄露和路径遍历,输出端做注入检测和敏感信息过滤。其他功能包括基于 YAML 的 constitution 配置(提供 SOC2、HIPAA、金融等合规模板)、token 预算管理与多层压缩、多 Agent 角色化权限、逐调用成本归因和 JSONL 审计日志。

项目在 README 免责声明中明确表示,Enhanced 模式的部分架构决策受到「Claude Code 源码于 2026 年 3 月 31 日通过 Anthropic npm 仓库意外公开后的公开分析和社区讨论」启发,同时强调未包含或翻译 Anthropic 的任何专有代码。项目首次提交时间为 4 月 1 日,距泄露事件不到 24 小时。如果说 Claw Code 是泄露事件催生的「从零重写」路线,AutoHarness 走的则是「提炼设计模式」路线,将 Claude Code 的工程实践抽象为可复用的治理框架。

[原文链接]

1M AI News 监测,晚点 LatePost 报道,DeepSeek V4 有可能在 4 月发布。一个小参数版本约在今年 1 月已交给部分开源框架社区做适配,大参数版此前曾预期 2 月中旬前后发布,推迟至今。晚点评估 V4 大概率仍是开源最强模型,但很难碾压级的强,因为不同场景的开发者和用户对「强」的标准已越来越多元,且进入 Agent 时代后,产品触手和长尾使用数据变得更重要,这恰恰是 DeepSeek 此前没有太多投入的地方。

从 2025 年下半年至今,四名核心成员已明确离开:

1. 王炳宣,DeepSeek 首代大语言模型核心作者,此后参与历代模型训练,去年底被腾讯姚顺雨挖走
2. 魏浩然,DeepSeek-OCR 系列核心作者,春节前后离开
3. 郭达雅,DeepSeek-R1 核心作者,近期正式离职
4. 阮翀,Janus-Pro 等多模态核心贡献者,今年 1 月加入自动驾驶公司元戎启行

晚点称团队并未成组流失。竞争对手开出总包翻 2-3 倍乃至 8 位数的邀约,更多人选择留下。DeepSeek 至今未融资,没有明确估值。2023 年创始人梁文锋曾小范围见过投资人,提出类似 OpenAI 与微软投资协议的回报上限条件,无机构接受,此后不再见投资人。MiniMax 和智谱相继上市并股价高涨,员工对手中无标价期权的疑问增多,梁文锋近期开始想办法给公司估值。

产品方向出现转向信号。DeepSeek 一位 HR 3 月中旬发布的招聘中首次提及具体产品名,要求 Agent 方向「模型策略产品经理」候选人「熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 agent」。DeepSeek 已有小数十人产品团队,但此前尚未涉足 AI 编程和通用 Agent 方向,C 端仍只有 Chatbot。

[原文链接]

1M AI News 监测,AI 硬件操作系统公司无界方舟(AutoArk)完成连续两轮 Pre-A 轮融资,投资方包括穿戴式设备品牌韶音(Shokz)、国瑞源基金、恒松资本和上海天使会,易凯资本担任独家财务顾问。加上去年由蚂蚁早期生态基金和小饭桌创投领投的 Pre-A 及柏睿资本独投的 Pre-A+ 轮,无界方舟过去一年内完成四轮融资,累计金额数亿元。

无界方舟 2024 年成立于珠海,核心产品是端侧 AI 操作系统 EVA OS。创始人曾晓东将其定位为「硬件端的 OpenClaw」:OpenClaw 是跑在云端和电脑上的 Agent 框架,EVA OS 则让 AI Agent 原生运行在机器人、耳机、眼镜等硬件设备上。开发者用自然语言描述需求,EVA OS 自动完成驱动调通、程序编写和部署,将此前需要 3 人、2-3 个月的端侧 AI 开发流程压缩到平均半小时。曾晓东把这套范式称为 Vibe Hardware。

技术上,EVA OS 采用端云协同架构,语音识别、TTS 和视觉感知等高频交互在端侧完成,复杂推理交给云端。语音延迟低于 250 毫秒,多模态反馈低于 350 毫秒,较行业通用方案约 600 毫秒有明显改善。感知模型完全跑在端侧,成本降低 70%-92%。EVA OS 1.0 发布三个多月以来,已有超过 2500 家企业和研发单位将其用于 AI 耳机、AI 眼镜、桌面机器人、智能腕带、车载智能管家、机械手臂等品类的产品研发。

曾晓东曾在阿里巴巴和蚂蚁集团任职约十年,从零孵化了刷脸支付、支付宝盒(千万级销量)和中国首家无人超市「淘咖啡」,2017 年入选 MIT Technology Review「35 岁以下科技创新 35 人」中国榜单。无界方舟首款硬件产品「奇多多 AI 学伴机」面向 3-10 岁儿童,售价千元级别且 AI 功能永久免费,用户日均使用时长达 145 分钟。本轮融资后,公司还将发布新硬件终端 EVA Pi,定位为可自主写代码、自主更新的端侧设备。

韶音此次以战略投资方身份入局。这家以开放式耳机闻名的全球穿戴品牌今年已在 AWE 2026 上展出 AI 眼镜产品线,投资无界方舟意味着硬件品牌正在为自家设备寻找端侧 Agent 能力的底座。

[原文链接]

1M AI News 监测,AI 招聘平台 Mercor 确认遭受网络攻击,起因是开源 Python 库 LiteLLM 的供应链被攻破。Mercor 称自己是「数千家受影响公司之一」,已聘请第三方取证专家调查。

LiteLLM 是一个月下载量达 9700 万次的 Python 库,开发者用它作为统一接口连接 OpenAI、Anthropic 等超过 100 家 AI 服务。一个名为 TeamPCP 的黑客组织向 PyPI 上传了被注入恶意代码的 1.82.7 和 1.82.8 版本,代码会窃取 SSH 密钥、API token、.env 文件和云服务商凭证,并建立持久后门。安全公司 Snyk 发现后恶意版本在数小时内被下架,但暴露窗口已足以让攻击者入侵下游系统。

勒索黑客组织 Lapsus$ 随后在其泄露站点宣称对 Mercor 的攻击负责,声称共窃取约 4TB 数据,包括:

1. 939GB 源代码
2. 211GB 数据库
3. 3TB 存储桶(据称包含视频面试录像、身份验证文件等)
4. TailScale VPN 全部数据

Lapsus$ 在帖子中还公布了部分数据样本,包括 Slack 通讯记录、工单系统信息,以及 Mercor AI 系统与平台承包商互动的视频。社交媒体上有安全研究者分析泄露样本后指出,数据中出现了疑似与亚马逊、苹果、Meta 相关的内部项目文件结构,但 Mercor 尚未确认具体哪些客户数据受到影响。

Mercor 成立于 2023 年,估值 100 亿美元(2025 年 10 月 C 轮),管理超过 3 万名专家承包商,日均向承包商支付超过 200 万美元,为 OpenAI、Anthropic、Google DeepMind 等 AI 实验室提供模型训练和评估所需的专家级人工反馈服务。Mercor 发言人确认已启动调查,但拒绝回答事件是否与 Lapsus$ 的声明有关,也未说明是否有客户或承包商数据被访问、泄露或滥用。如果 Lapsus$ 的说法属实,这将是一起直接触及多家头部 AI 实验室训练流程核心数据的重大安全事件。目前 TeamPCP 与 Lapsus$ 之间的关系尚不清楚。Cybernews 分析认为,Lapsus$ 对 Mercor 的攻击可能标志着 TeamPCP 与勒索组织开始实质协作,类似此前 ShinyHunters 利用 Salesforce 漏洞、Cl0p 利用 MOVEit 漏洞后的连锁效应。

[原文链接]

1M AI News 监测,AI 大模型公司阶跃星辰发布 Step 3.5 Flash 2603,是 Step 3.5 Flash 的优化版本,已面向所有 Step Plan 用户开放。

核心变化是新增 low think mode(低推理模式)。官方测试数据显示,默认推理模式(high)下推理分数基本持平,token 消耗降低 14%;切换到 low think mode 后,token 消耗降低 56%。模型同时针对编程框架和 Agent 框架做了优化训练,提升稳定性和 token 效率。

阶跃星辰在公告中观察到,OpenClaw 用户在 Agent 场景中大量任务频率高但复杂度不高,「聪明的用户已经在做按需分配:复杂环节用重型模型,中间步骤和高频任务用轻量模型」。API 同时支持 OpenAI 和 Anthropic 两种协议格式,通过 reasoning_effort 或 budget_tokens 参数控制推理强度。

[原文链接]
查看更多
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成