header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP
全部
预测市场
AI
链上侦探
融资
2026-03-26
订阅推送
自动更新

BlockBeats 消息,3 月 26 日,OpenClaw 创始人 Peter Steinberger 发文表示,「Discrawl 0.2.0 版本已发布,同步速度大幅提升。我每天都用它来了解 OpenClaw Discord 社区中最大的痛点。」

[原文链接]

BlockBeats 消息,3 月 26 日,在 AI 业务上,美团 CEO 王兴表示,在 AI 革命中,唯一合理的策略是进攻,而不是防守。但美团不会盲目追求成为「Token(词元)工厂」,而是将 AI 视为战略机遇。


自 2023 年初以来,美团在资本支出和 AI 人才上进行了大规模投入,「除有云计算业务的企业外,美团在 AI 上的投入规模,大概率是国内企业里最大的,且已经坚持布局三年多了。」美团正继续投入自研基座大模型 LongCat,也在和当前行业顶尖的第三方大模型合作,致力于最精准地理解真实物理世界。


王兴认为,AI「超级入口」,关键在于精准理解用户需求,并且高效执行任务,其复杂程度远超「聊天机器人」。「我们希望用新一代 AI 技术,让美团 APP 成为用户解决本地生活需求的首选平台。我们会强化 AI 搜索能力,强化执行能力,力争把美团升级为领先的 AI 驱动应用,成为未来本地生活需求的 AI 入口。」王兴表示。(澎湃)

[原文链接]

BlockBeats 消息,3 月 26 日,中国信息通信研究院联合 40 余家单位共同起草的具身智能领域首个行业标准今天(3 月 26 日)正式发布,该标准为具身智能领域构建了统一基准测试框架,标志着具身智能评测迈入「有标可依」的新阶段。据了解,这项标准聚焦人工智能关键基础技术和具身智能基准测试方法,同时明确了具身智能系统框架和能力要求,将于 2026 年 6 月 1 日正式实施。


标准规范了在仿真环境和真实环境下,面向具身智能系统的基准测试框架、方法和指标。标准提出的评测体系支持基础能力、认知推理能力以及全链路闭环能力的测试,覆盖静态仿真测试、动态仿真测试、真实环境测试和组合式测试四种测试方法。(央视新闻)

[原文链接]

1M AI News 监测,小米 MiMo 宣布,将「Xiaomi MiMo 联合全球顶级 Agent 框架开启首周限免」活动由原定限免一周延长为两周,免费时间延长至北京时间 2026 年 4 月 2 日晚 12 点。

官方称,自 3 月 19 日 Xiaomi MiMo-V2 系列模型全球发布以来,MiMo-V2-Pro 和 MiMo-V2-Omni 获得较高开发者关注,其中 MiMo-V2-Pro 在 OpenRouter 全球调用量排名中位列日榜、周榜和趋势榜第一。

这次联合活动覆盖 OpenClaw、OpenCode、KiloCode、Cline 和 BlackBoxAI 等 Agent 框架。小米表示,各平台的接入方式可参考此前发布的活动说明。

[原文链接]

1M AI News 监测,甲骨文本周在伦敦 AI 峰会上发布 Fusion Agentic Applications,一次性上线 20 多个 AI Agent 应用,覆盖 ERP、人力资源、供应链和客户体验四大领域,集成至 Oracle Fusion Cloud Applications 套件。甲骨文应用开发执行副总裁 Steve Miranda 称这类应用「能够推理、决策和行动以实现既定业务目标」,代表从流程驱动的软件转向结果驱动的自动化。

甲骨文的核心卖点是数据优势:训练和运行这些 Agent 所需的数据本就存储在其企业应用内部。Miranda 强调 Agent 在细粒度任务层面运行而非宽泛的业务流程层面,「技术上这是一个容易得多的问题」,比如用 Agent 扫描发票,结果对错可直接衡量。英国 NHS 共享业务服务已用 Oracle Fusion 每年处理 710 万张发票、追回 74 亿英镑欠款。同步发布的 AI Agent Studio 新增 Agent 构建器、多步工作流编排、跨交互上下文记忆、多模态处理和 ROI 仪表盘;AI Data Platform 则用于整合非甲骨文系统的数据源。

Gartner 副总裁、甲骨文领域首席分析师 Balaji Abbabatulla 对此明显保留。他指出 AI Data Platform 虽提供了连接 SharePoint 等外部数据源的工具,但「目前没有自动同步不同数据仓库的手段」,企业需要投入大量工程资源并为此向甲骨文付费。对于已在 Databricks、Snowflake 等平台投入多年的企业,迁移成本巨大,甲骨文此举更像是用数据上下文作筹码留住现有客户。

更关键的是责任归属。如果 AI Agent 以规模化速度做出错误决策,级联错误可能在任何人注意到之前蔓延。甲骨文目前的回应是提供监控和审计工具,Abbabatulla 直言:「我没有看到任何厂商对责任问题给出清晰的答案。」定价方面,甲骨文将继续以订阅制收取应用基础费用,AI 功能单独计费,Miranda 透露未来可能从按用户定价转向按交易量或企业规模定价。IDC 企业软件副总裁 Mickey North Rizza 则更乐观,称「赢的不是 UI 最好的应用,而是能可靠完成业务目标、可扩展、可信赖的 Agent」。

[原文链接]

1M AI News 监测,OpenAI 已将 ChatGPT「成人模式」的推出计划无限期搁置。英国《金融时报》称,这一决定发生在公司重新聚焦核心产品之际,员工和投资人也对性化 AI 内容可能带来的社会影响表达了担忧。

OpenAI 向《金融时报》确认,该产品目前已暂停且没有发布时间表。公司表示,在做出产品决定前,想先完成对露骨性聊天和情感依赖影响的长期研究,并承认目前缺乏相关经验证据。

这也是 OpenAI 继续收缩「支线任务」的最新动作。3 月初已有报道称,OpenAI 当时已再次推迟成人模式上线,原因是要优先处理「对更多用户更高优先级」的工作,包括提升模型智能、个性和主动性。

[原文链接]

1M AI News 监测,DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达两周前推出的 AI 编程文档服务 Context Hub 被安全研究者曝出供应链攻击风险。Context Hub 通过 MCP 服务器向编程 Agent 提供 API 文档,贡献者以 GitHub PR 提交文档,维护者合并后 Agent 按需读取。替代服务 lap.sh 的创建者 Mickey Shmueli 发布概念验证攻击(PoC),指出这条流水线「每个环节都没有内容审核」。

Shmueli 制作了两份针对 Plaid Link 和 Stripe Checkout 的虚假文档,各植入一个伪造的 PyPI 包名,用 Anthropic 三个级别的模型各测试 40 次:

1. Haiku 每次都将恶意包写入 requirements.txt,输出中不显示任何警告
2. Sonnet 在 48%(19/40)的测试中发出警告,但仍有 53%(21/40)写入恶意依赖
3. Opus 表现最好,75%(30/40)发出警告,未将恶意依赖写入代码

攻击者只需提交一个 PR 并被合并即可完成投毒,审核门槛不高:97 个已关闭的 PR 中有 58 个被合并。Shmueli 指出这本质上是间接提示注入的变种,AI 模型处理内容时无法可靠区分数据和指令,且其他社区文档服务在内容审核方面同样不足。吴恩达未回应置评请求。

[原文链接]

1M AI News 监测,Keras 创始人 François Chollet 与 Zapier 联合创始人 Mike Knoop 创办的非营利机构 ARC Prize 基金会发布 ARC-AGI-3 基准测试。与前两代静态网格推理任务不同,ARC-AGI-3 是一组交互式回合制环境,Agent 在 64×64、16 色的网格世界中行动,不会收到任何指令或目标提示,必须自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。

评分采用「动作效率」机制,完成同一关卡所需步数越少得分越高,用以区分真正的推理能力和暴力穷举。每个环境均经人类校准测试,确认 100% 可由人类在首次接触时通关。前沿 AI 模型截至发布时的得分:

1. 谷歌 Gemini 3.1 Pro Preview:0.37%
2. OpenAI GPT 5.4(High):0.26%
3. Anthropic Opus 4.6(Max):0.25%
4. xAI Grok-4.20(Beta):0.00%

新版本的推出部分源于对前代基准被「污染」的担忧。论文指出,Gemini 3 在推理链中自动使用了 ARC-AGI 的整数-颜色映射关系(如「3 = 绿色」),尽管提示词中从未提及该映射,强烈暗示模型训练数据已充分覆盖 ARC-AGI 任务。ARC-AGI-3 通过交互式环境和自主目标发现机制来抵抗这类记忆捷径。ARC Prize 2026 竞赛总奖金超过 200 万美元。

[原文链接]

1M AI News 监测,阿里通义千问前技术负责人林俊旸在 X 上发表长文,系统阐述他对 AI 行业从「推理思维」(reasoning thinking)转向「智能体思维」(agentic thinking)的判断。这是他 3 月初离开千问团队后首次公开发表的技术观点文章。

林俊旸认为,2025 年上半年的核心议题是推理思维,即如何让模型在推理阶段花费更多算力、如何用更强的奖励信号训练、如何控制推理深度。但下一阶段的答案是智能体思维:模型不再只是「想得更久」,而是「为了行动而思考」,在与环境交互中持续修正计划。

他在文中坦率回顾了千问团队的技术选择。Qwen3 尝试在同一模型中融合思考模式与指令模式,支持可调推理预算,但实际执行中发现两种模式的数据分布和行为目标差异极大:指令模式追求简洁、低延迟、格式合规,思考模式追求在难题上投入更多 token 并维持中间推理结构。如果合并数据策划不够精细,结果往往两头平庸。因此 Qwen 2507 系列最终选择分别发布 Instruct 和 Thinking 版本(含 30B 和 235B 两个规格),以便各自优化。Anthropic 则走了相反路线,Claude 3.7 Sonnet 起就主张推理应是集成能力而非独立模型,用户可自行设定思考预算。

林俊旸提出,智能体强化学习的基础设施比传统推理 RL 更难。推理 RL 的 rollout 通常是自包含的轨迹,配合静态验证器即可;智能体 RL 则要求模型嵌入完整工具链(浏览器、终端、沙箱、API、记忆系统),训练与推理必须解耦,否则 rollout 吞吐量会崩溃。他将环境设计提到与模型架构同等重要的地位,称「环境构建正从副项目变成真正的创业品类」。

他预判智能体思维将成为主流思考形式,甚至可能取代传统静态推理中过长的孤立内部独白。但最大风险是奖励黑客(reward hacking):一旦模型获得真实工具访问权,它可能学会在 RL 训练中直接搜索答案、利用仓库中的未来信息或发现绕过任务的捷径。文章最后指出,未来竞争优势将从更好的 RL 算法转向更好的环境设计、更紧密的训推一体化,以及多 Agent 协同的系统工程能力。

[原文链接]

1M AI News 监测,Spotify 正在内测 Artist Profile Protection 功能,艺人开启后,任何以其名义投递到 Spotify 的音乐都需经本人或团队审核批准后才能上架。未批准的内容不会出现在艺人主页、不计入播放统计,也不会被推荐给听众。Spotify 称这是「音乐流媒体服务中的首创」。

AI 生成音乐的泛滥让冒名上传问题急剧恶化。Drake、Beyoncé、实验作曲家 William Basinski、独立摇滚乐队 King Gizzard and the Lizard Wizard 等都遭遇过假冒曲目出现在自己的 Spotify 页面上。King Gizzard 主唱 Stu Mackenzie 称「我们真的完了」(we are truly doomed),Basinski 直呼「纯属扯淡」(total bullshit)。

为防止审批流程拖慢正常发行,Spotify 配套推出 artist key 机制:艺人将一串专属代码交给信任的发行商,携带该代码投递的内容自动通过审批,无需人工操作。该功能目前为限定内测,Spotify 表示将「尽快向所有艺人开放」。

[原文链接]
查看更多
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成