据 1M AI News 监测,智谱官宣 GLM-5.1 现已上线,面向 GLM Coding Plan 全部用户 (Lite/Pro/Max) 开放。用户寻找配置文件将模型名称手动改为「glm-5.1」即可切换使用。
在编码能力基准(Coding Evaluation,使用 Claude Code 作为测试框架)测试中,GLM-5.1 得分 45.3,大幅领先前代 GLM-5 的 35.4。GLM-5.1 在编码任务上已非常接近 Claude Opus 4.6,进步明显。
[原文链接]据 1M AI News 监测,Anthropic 官方状态页面显示,Claude 5 条产品线中有 3 条当前处于「Major Outage」(重大宕机)状态:claude.ai、Claude API 和 Claude Code;platform.claude.com 和 Claude for Government 状态正常。截至发稿,有两起未解决的活跃故障:Opus 4.6 错误率升高(3 月 27 日 14:59 北京时间起,正在调查中),以及 Cowork 连接重置错误(3 月 25 日起持续至今,官方建议重启 Claude Desktop 应用作为临时解决方案)。
状态页面记录显示,3 月 13 日至 27 日的 15 天内,Claude 累计发生约 25 起独立故障事件,仅 3 月 14、15、20、24 日无故障报告。其中 Opus 4.6 相关的错误率升高事件出现频率最高,3 月 17 日至 27 日几乎每天至少一起。部分日期同时出现多起并发故障,3 月 18 日单日记录了 4 起。故障类型涵盖模型错误率升高、claude.ai 前端报错、登录系统宕机、MCP 调用失败和响应完成延迟等。90 天正常运行率方面,claude.ai 为 99.03%,Claude API 为 99.11%,Claude Code 为 99.35%。
结合 Anthropic 同日披露的高峰时段限额调整,Claude 服务正面临需求增长与容量之间的双重压力。
[原文链接]据 1M AI News 监测,ARC-AGI-3 论文将评测拆分为两个排行榜。官方排行榜禁止外部 harness(Agent 框架),所有模型使用同一极简提示词、不提供工具,测的是模型脱离脚手架后的原生智能。社区排行榜则允许 harness,得分自报,ARC Prize 默认不验证,论文明确提醒「不应将社区排行榜上的分数解读为 AGI 进展的证据」。
官方排行榜上,前沿模型得分均低于 1%:Gemini 3.1 Pro Preview 0.37%、GPT 5.4 High 0.26%、Opus 4.6 Max 0.25%、Grok 4.20 为 0%。这组数字暴露的是 LLM 在没有工程辅助时的真实自主推理水平。
社区排行榜首个公开结果来自 AI 公司 Symbolica。其 Arcgentica Agent 基于自研 Agentica SDK 构建,采用编排器加专业子代理架构(探索者、理论家、测试者、求解者),不包含任何游戏特定的提示词,在公开评测集上取得 36.08% 的未验证得分,通过 182 个可玩关卡中的 113 个,完整通关 7 款游戏。底层模型为 Opus 4.6 High(120K),全部推理成本 1005 美元,而官方排行榜上同系列 Opus 4.6 Max 裸跑 0.25% 花费 8900 美元。论文将 Symbolica 的方案列为社区早期实验的代表案例。
论文同时指出,harness 工程虽不代表 AGI 进步,但具有实际的任务自动化价值,并预期 2026 年 ARC-AGI-3 将推动 harness 创新取得显著进展。代码已在 GitHub 开源。
据 1M AI News 监测,香港中文大学和字节跳动 Seed 团队提出 UniGRPO,一个将文本推理和图像生成纳入同一强化学习回路的统一框架。核心思路是让图像生成模型在画图前先进行链式推理(chain-of-thought),扩展用户提示词,然后用 GRPO 算法同时优化「想」和「画」两个阶段,而非分开训练。
框架基于字节 Seed 的多模态模型 Bagel 构建,将「提示词 → 推理 → 图像」的完整流程建模为一个马尔可夫决策过程(MDP),文本部分使用标准 GRPO,图像部分使用 FlowGRPO。为使框架可扩展至多轮交互和多条件生成(如图像编辑),研究者对 FlowGRPO 做了两处改进:去掉训练阶段的 classifier-free guidance(CFG),消除分支计算开销,保持线性无分支的生成路径;用速度场上的 MSE 惩罚替代潜空间 KL 散度,更均匀地约束模型偏离预训练分布,有效抑制奖励黑客(reward hacking)。
实验以 1024 分辨率训练,UniGRPO 在文本对齐评测(TA Score 0.8381)和组合生成评测 GenEval(0.90)上均优于仅优化图像的 FlowGRPO(0.8208/0.86)和仅优化推理的 TextGRPO(0.8078/0.88),证实联合优化两阶段的增益大于分别优化之和。基于 FPO 的替代方案 UniFPO 训练直接崩溃,未能收敛,侧面验证了 GRPO 在此场景下的稳定性优势。
据 1M AI News 监测,AI 数学公司 Axiom Math 开源了 Axplorer,一款帮助数学家发现新数学模式和构造的 AI 工具,定位为谷歌 DeepMind AlphaEvolve 的开源替代。Axplorer 基于 PatternBoost 重新设计,后者由 Axiom 研究科学家 François Charton 2024 年在 Meta 时联合开发,曾用于攻克图论中的 Turán 四环问题,但需要数千甚至上万台机器跑三周才能出结果。Axplorer 在单机上 2.5 小时即可匹配同样的成果,云计算成本仅 3 美元。
Axplorer 的工作方式是给定一个数学样本,生成类似的构造供数学家筛选,再将筛选结果反馈迭代,逐步逼近未被发现的数学模式。与 AlphaEvolve 需要大规模 GPU 集群且不对外开放不同,Axplorer 可在一台 Mac Pro 上本地运行,代码已在 GitHub 开源。Axiom 称已用 Axplorer 在图论的另外两个经典问题上匹配或刷新了已知最优结果。
Axiom Math 由 25 岁的广州姑娘洪乐潼创立,她三年修完 MIT 数学与物理双学位,获罗德学者奖学金赴牛津读硕,后从斯坦福法学博士与数学博士联合项目退学创业。公司今年 3 月完成 2 亿美元 A 轮融资,估值 16 亿美元,由 Menlo Ventures 领投。
据 1M AI News 监测,东京 AI 研究公司 Sakana AI(由 Transformer 论文共同作者 Llion Jones 和前 Google Brain 研究员 David Ha 创立)联合英属哥伦比亚大学、Vector Institute 和牛津大学的研究者在 Nature 发表论文,展示了一条能自动走完科研全流程的 AI 管线「The AI Scientist」:从提出假设、检索文献、设计并执行实验、分析数据、绘制图表,到撰写完整的 LaTeX 论文并自我审稿,全程无人修改。
研究团队将三篇 AI 生成的论文匿名提交至 ICLR 2025 ICBINB Workshop(该 Workshop 录用率约 70%),经人类审稿人盲审后,其中一篇获得 6、7、6 三个评分(平均 6.33),超过该 Workshop 的平均录用门槛,排名高于 55% 的人类投稿。按预设协议,论文在被接收后撤回,未正式发表。另外两篇未达到录用标准。研究团队的内部评估认为,这三篇论文均未达到 ICLR 主会(录用率约 32%)的水平。
论文还报告了两个「缩放定律」:底层基座模型越强,生成论文的质量越高,且这一相关性具有统计显著性(P < 0.00001);单篇论文分配的计算资源越多,质量也越高。团队据此推断,随着模型持续进步和推理成本下降,未来版本的 AI 科学家能力将大幅提升。
系统的无模板模式使用 o3 生成研究想法和代码审查、Claude Sonnet 4 编写实验代码、GPT-4o 处理图表等视觉任务、o4-mini 执行低成本审稿。实验执行采用并行化的 Agent 树搜索,分四个阶段推进:初步实现、超参调优、研究议程执行和消融实验。团队同步开发的「自动审稿人」在 ICLR 论文上的判断准确率与人类审稿人持平(平衡准确率 69%),为规模化评估 AI 生成的论文提供了基础。
论文同时讨论了风险:AI 论文可能淹没已不堪重负的同行评审体系、人为夸大研究履历、在未经授权的情况下复用他人成果。团队建议学术界尽快建立 AI 生成论文的披露和评估规范。
据 1M AI News 监测,AI 顶会 NeurIPS 在 2026 年征稿规则中首次引入美国制裁合规要求,依据美国财政部特别指定国民名单(SDN List),禁止包括华为在内的数百家中国机构投稿、参与评审及担任编辑。这一举措在中国学术界引发强烈反弹,并在数小时内迫使 NeurIPS 公开撤回。
中国计算机学会(CCF)率先发声,倡议全体中国计算机领域科研工作者拒绝向 NeurIPS 投稿、拒绝提供审稿和编辑等任何学术服务,并警告若 NeurIPS 不及时纠正,将把其移出《CCF 推荐国际学术会议和期刊目录》。中国科协进一步升级反制措施:即日起停止受理学者参加 2026 年 NeurIPS 会议的资助申请,本届 NeurIPS 收录论文作为代表作申请中国科协所有项目均不予认可。多位学者也公开宣布拒绝担任本届 NeurIPS 领域主席。
NeurIPS 随后在 X 上发布道歉声明,称「这一错误源于 NeurIPS 基金会与法律团队之间的沟通误解」,「从未打算在强制性合规义务之外限制投稿」,已更新手册与 ACM、IEEE 及往届 NeurIPS 投稿规则保持一致,欢迎所有符合合规要求的机构和个人提交论文。
据 1M AI News 监测,记者 Sebastian Mallaby 的新书《The Infinity Machine: Demis Hassabis, DeepMind and the Quest for Superintelligence》将于 3 月 31 日出版,WSJ 刊发独家书摘,首次详细披露 2013 年谷歌与 Facebook(现 Meta)争夺 DeepMind 的收购内幕。本书基于对 Hassabis 超过 30 小时的采访,以及与 DeepMind 同事、投资人和收购相关人士的数十次对话。
2013 年 6 月,谷歌时任 CEO Larry Page 在马斯克的生日派对上向 DeepMind 创始人 Demis Hassabis 提出收购意向:「你的真正使命是造 AGI,为什么不利用我已经积累的资源?」Hassabis 回忆称这番话说服了他:「我受够了四处奔波筹钱。我去谷歌,拿一大堆计算资源,然后解决智能问题。」
Facebook CEO 扎克伯格同时参与竞购。Facebook 企业发展负责人 Amin Zoufonoun 提出了一个让创始人更富有的方案:压低股权收购价,但给予创始人和核心成员巨额签约奖金。然而 Zoufonoun 对 DeepMind 联合创始人 Mustafa Suleyman(现为微软 AI 部门 CEO)提出的 AI 治理议题不以为然。Hassabis 随后赴扎克伯格家中共进晚餐,席间故意将话题从 AI 延伸到虚拟现实、增强现实、3D 打印,发现扎克伯格对所有技术同样兴奋。「这告诉了我需要知道的一切,」Hassabis 后来说,「Facebook 出价更高,但我想要一个真正理解 AI 为何比其他一切都重要的人。」
谈判中,Suleyman 利用扑克选手的本能虚张声势,向谷歌强调 DeepMind 背后有 Peter Thiel、马斯克等亿万富翁投资人撑腰(「当然,这些人并没有真的在支持我们」)。Hassabis 为出售设定了多项条件:DeepMind 留在伦敦、禁止军事应用、成立由外部科学家和哲学家组成的独立伦理与安全审查委员会,以稀释谷歌对技术的控制权。谷歌首席谈判代表 Don Harrison 称这些条件「对我来说是个大问题」,但最终让步,因为「如果不是绝对相信 Demis 代表我们 AI 战略的未来,我们不可能同意这个架构」。
2014 年 1 月底,谷歌以 6.5 亿美元完成收购。被拒的扎克伯格随即挖来深度学习先驱、纽约大学教授 Yann LeCun 组建 Facebook AI 实验室,LeCun 上任后立即尝试从 DeepMind 挖角核心研究员。Mallaby 在书中称这笔收购「以今天的标准衡量是一笔便宜货」,而真正的回报在此后十年逐步兑现,谷歌向 DeepMind 投入了数十亿美元研究经费。
据 1M AI News 监测,AI Agent 协调初创公司 Isara 完成 9400 万美元融资,OpenAI 参投,估值 6.5 亿美元。其他投资者包括风投公司 Amity Ventures、Michael Ovitz 和 Stanley Druckenmiller。
Isara 的目标是构建让数千个 AI Agent 相互通信、协同解决复杂问题的软件,初期聚焦金融和生物科技领域。创始人在今年早些时候 Allen & Co. 科技峰会上展示了早期版本:约 2000 个 AI Agent 协同工作,预测黄金价格走势。Amity Ventures 的 CJ Reim 将这一方法描述为协调「专家蜂群」为用户执行研究任务。公司初期目标客户为投资机构和金融服务公司,用于预测建模。
Isara 去年 6 月在旧金山成立,两位联合创始人均为 23 岁:Eddie Zhang 此前在哈佛攻读计算机科学博士学位,离开 OpenAI 后创业;Henry Gasztowtt 此前在牛津大学攻读计算机科学本科。两人于 2024 年 6 月合著了一篇关于 AI 系统协同改善政策制定的学术论文,Isara 即脱胎于此。公司已从谷歌、Meta 和 OpenAI 等招募了约 12 名研究人员。
据 1M AI News 监测,ELLIS Institute Tübingen 的 Maksym Andriushchenko 等研究者发表论文「Claudini」,展示用 Claude Code 驱动的自动研究(autoresearch)管线,从现有攻击算法(如 GCG)出发,自主迭代发现了全新的白盒对抗攻击算法,在越狱和提示词注入评测中大幅超越已有的 30 多种方法。
核心结果:在针对 GPT-OSS-Safeguard-20B 的 CBRN(化学、生物、放射、核)类查询测试中,自动发现的算法攻击成功率达 40%,而现有最佳方法仅约 10%。更值得注意的是这些攻击的迁移性,在代理模型上优化的攻击直接迁移到未见过的目标模型后,对 Meta-SecAlign-70B 达到 100% 攻击成功率,现有最佳基线仅 56%。
研究者指出,白盒对抗红队测试特别适合自动化研究:现有方法提供了扎实的起点,优化目标能产生密集的量化反馈,使 LLM Agent 能够持续迭代改进。论文认为这是增量式安全研究可被 AI 自动化的早期实证。全部发现的攻击算法、基线实现和评测代码已在 GitHub 开源。