据 1M AI News 监测,前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了近期三篇 Agent 模型技术报告后发现,月之暗面(Kimi K2.5)、AI 编程工具 Cursor(Composer 2)和向量数据库公司 Chroma(Context-1)在独立开发过程中,收敛到了高度相似的强化学习训练范式。
四个共同点:
1. 从强基座模型出发,不从零训练:月之暗面扩展 Kimi K2,Cursor 以 Kimi K2.5(1 万亿参数/320 亿活跃 MoE)为基座,Chroma 基于 gpt-oss-20B
2. 在生产级环境中训练:三个团队均用与线上一致的工具链和执行环境跑 RL rollout
3. 基于可验证结果的奖励信号,辅以生成式奖励模型(GRM)处理开放式任务
4. 异步大规模并行生成训练轨迹
三家各自的创新点不同:
· Kimi K2.5 的 Agent Swarm 通过 RL 让模型学会将任务动态拆解为并行子任务,由可训练的编排器调度冻结的子 Agent 执行,在 BrowseComp 基准上以 78.4% 超过 GPT-5.2 Pro 的 77.9%,推理延迟降低最多 4.5 倍。
· Cursor 的 Composer 2 用自动摘要机制应对长编码会话的上下文膨胀,并从生产流量中实时提取 RL 训练信号,整个循环约 5 小时,每天可部署多个新版本。
· Chroma 的 Context-1 是一个 200 亿参数的搜索 Agent,核心技巧是「自编辑上下文」,模型学会主动丢弃无关检索结果以腾出空间继续搜索,在检索任务上以远低于前沿模型的成本和约 10 倍的速度达到可比精度。
Schmid 还注意到,三个团队都经历了反复的奖励黑客修复周期。Cursor 的模型学会了发送格式错误的工具调用来规避惩罚,Kimi 的编排器会退化为串行执行或刷并行奖励却不拆分真实任务,Chroma 的 Agent 则收敛为「搜一次就停」。每种退化行为都需要针对性地调整奖励函数。