header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP
全部
预测市场
AI
链上侦探
融资
2026-03-21
订阅推送
自动更新

据 1M AI News 监测,xAI 正将工程师直接派往潜在企业客户的办公室,提供驻场定制服务,试图从 OpenAI 和 Anthropic 手中争夺商业客户。这种「白手套」策略已帮助 xAI 拿下支付公司 Shift4 Payments 的一份数百万美元合同。

Shift4 CEO Taylor Lauber 接受彭博社采访时称,经过 xAI 工程师驻场优化后,公司计划逐步淘汰 ChatGPT,在日常业务中全面转向 Grok,但编程任务仍继续使用 Anthropic 的 Claude。xAI 团队于 2025 年底开始与 Shift4 合作,核心任务包括分析支付用户健康状况和预测客户流失原因。Lauber 称 xAI 平台的独特优势在于能从 X 社交网络获取「社交信号」数据,用于评估客户情绪。Shift4 计划未来三个月将业务扩展至 15 个国家。

不过,Shift4 并非一个纯粹的市场化客户赢单。该公司创始人 Jared Isaacman 是马斯克盟友,曾搭乘 SpaceX 飞船完成全球首次商业太空行走,目前担任 NASA 局长。SpaceX 旗下 Starlink 也是 Shift4 的客户。在 xAI 成立的三年中,其客户主要集中在马斯克旗下的特斯拉、SpaceX 等关联企业及政府机构。

彭博社指出,xAI 的驻场策略反映了 AI 行业的普遍趋势:OpenAI 和 Anthropic 同样在积极外派工程师协助客户部署,OpenAI 还在与私募股权公司合作组建专门的「部署部门」。

[原文链接]

1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。

模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。


训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。

基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

[原文链接]

BlockBeats 消息,3 月 21 日,AI 编程初创公司 Windsurf 发文表示,鉴于近期市场对 Kimi K2.5 关注度显著上升,将向 Trial、Pro、Teams 与 Max 全部用户开放为期 7 天的免费使用权限。

[原文链接]

1M AI News 监测,Andrej Karpathy 在 No Priors 播客中称,应用商店里的大多数智能家居 App「根本不该存在,一切都该是 API 端点,Agent 才是智能粘合层」。他分享了今年 1 月构建的家庭 Agent「Dobby the elf claw」:只用三个提示词,Agent 自行扫描局域网发现了 Sonos 音响,逆向工程其协议后接管播放控制。如今 Dobby 通过 WhatsApp 对话统一控制灯光、空调、窗帘、泳池、安防系统,取代了此前六个独立 App。他还接入了视觉模型监控安防摄像头,有人到访时自动推送图片消息到 WhatsApp。

「这在一两年内应该是免费的,不涉及任何 vibe coding,这是基本功,」Karpathy 说,「客户不再是人类了,而是代替人类行事的 Agent。这场重构的规模将相当可观。」

[原文链接]

1M AI News 监测,Andrej Karpathy 在 No Priors 播客中详述了他近期开源的 autoresearch 项目的实际效果:在已经手动调优多年的 nanoGPT 代码库上,autoresearch 跑了一夜后发现了他本人遗漏的优化点,包括 value embeddings 的 weight decay 和未充分调优的 Adam betas。「代码库已经调得很好了,它还是找到了改进,而这只是单次循环。」

他进一步提出一个更大胆的设想:一个类似区块链的去中心化 Agent 网络。不可信的计算节点通过「提交 commit 替代出块、实验验证替代工作量证明」的方式协作改进模型,验证成本远低于生成成本,类似 Folding@home 的结构。


「一群互联网上的 Agent 集群有可能在改进 LLM 这件事上绕着前沿实验室跑圈,」他说,「前沿实验室有大量可信算力,但地球比它们大得多。」

[原文链接]

1M AI News 监测,「vibe coding」概念提出者、OpenAI 创始成员 Andrej Karpathy 在 No Priors 播客中透露,去年 12 月是他工作方式的分水岭。此前他自己写代码与委托 Agent 的比例约为 80:20,12 月之后反转为 20:80,「到现在可能已经不止了」,「我大概从 12 月起就没打过一行代码」。

他将这种状态称为「AI 精神病」(AI psychosis):Agent 的能力边界尚未被充分探索,「一切皆有可能,而一切失败归根结底都是技能问题(skill issue)」。他开始像 PhD 时期看 GPU 利用率一样关注 Token 吞吐量,「订阅额度没用完就意味着你没有最大化产出」。他还描述了 Agent 的「锯齿感」:「我同时感觉在和一个极其聪明的、做了一辈子系统编程的博士生对话,又在和一个十岁小孩对话。」

[原文链接]

1M AI News 监测,OpenAI 发布开发者博客,介绍如何用 GPT-5.4 生成高质量前端界面,并同步开源 frontend-skill 供 Codex 用户安装使用。博客披露了 GPT-5.4 在前端方向的三项针对性训练改进:

1. 原生集成图片搜索与图片生成工具,可在设计流程中先生成情绪板(mood board)再选定视觉资产
2. 长任务完成度更高,复杂游戏和交互体验可在一到两轮对话内实现
3. 作为 OpenAI 首个原生支持 Computer Use 的主线模型,可配合 Playwright 自主检查渲染结果、测试多视口、验证交互行为

博客提出一个反直觉建议:前端任务中,低到中等推理等级的效果往往优于高推理,模型更专注、不易过度思考。`frontend-skill` 内置了详细的设计约束规则,覆盖排版、配色、动效、卡片使用限制等,引导模型产出更克制、更有设计感的界面。

[原文链接]

1M AI News 监测,智谱 Z.ai 全球负责人李子玄在 X 上发文:「Don't panic. GLM-5.1 will be open source.」(别慌,GLM-5.1 将会开源。)未透露发布时间及模型细节。

[原文链接]

1M AI News 监测,Anthropic 旗下 AI 编程工具 Claude Code 新增云端定时任务功能。用户可指定代码仓库、执行计划和提示词,Claude 将通过云端基础设施按计划自动执行,无需保持本地 Claude Code 运行。

从产品界面看,用户可通过 Web 端配置定时任务,也可在已有会话中输入 /schedule 命令创建。示例任务包括每日自动审查所有开放 PR、标记超过两天无人处理的 PR、每周一自动升级补丁级依赖并提交 PR、每晚重跑失败的 CI 任务并为反复失败的用例建 ticket。

[原文链接]

据 1M AI News 监测,Hugging Face 联合创始人兼 CEO Clément Delangue 就 Cursor Composer 2 以 Kimi K2.5 为基座一事发表评论,称此事印证了三点判断:

- 开源始终是竞争最大的推动力
- 中国开源「如今是塑造全球 AI 技术栈的最大力量」
- 前沿竞争不再只是谁从头训练,而是谁适配、微调、产品化得最快(他以 OpenClaw 为例)

[原文链接]
查看更多
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成