Agent训练的「隐形共识」：三家公司独立开发，RL方法论几乎一模一样

据 1M AI News 监测，前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了近期三篇 Agent 模型技术报告后发现，月之暗面（Kimi K2.5）、AI 编程工具 Cursor（Composer 2）和向量数据库公司 Chroma（Context-1）在独立开发过程中，收敛到了高度相似的强化学习训练范式。

四个共同点：

1. 从强基座模型出发，不从零训练：月之暗面扩展 Kimi K2，Cursor 以 Kimi K2.5（1 万亿参数/320 亿活跃 MoE）为基座，Chroma 基于 gpt-oss-20B
2. 在生产级环境中训练：三个团队均用与线上一致的工具链和执行环境跑 RL rollout
3. 基于可验证结果的奖励信号，辅以生成式奖励模型（GRM）处理开放式任务
4. 异步大规模并行生成训练轨迹

三家各自的创新点不同：

· Kimi K2.5 的 Agent Swarm 通过 RL 让模型学会将任务动态拆解为并行子任务，由可训练的编排器调度冻结的子 Agent 执行，在 BrowseComp 基准上以 78.4% 超过 GPT-5.2 Pro 的 77.9%，推理延迟降低最多 4.5 倍。

· Cursor 的 Composer 2 用自动摘要机制应对长编码会话的上下文膨胀，并从生产流量中实时提取 RL 训练信号，整个循环约 5 小时，每天可部署多个新版本。

· Chroma 的 Context-1 是一个 200 亿参数的搜索 Agent，核心技巧是「自编辑上下文」，模型学会主动丢弃无关检索结果以腾出空间继续搜索，在检索任务上以远低于前沿模型的成本和约 10 倍的速度达到可比精度。

Schmid 还注意到，三个团队都经历了反复的奖励黑客修复周期。Cursor 的模型学会了发送格式错误的工具调用来规避惩罚，Kimi 的编排器会退化为串行执行或刷并行奖励却不拆分真实任务，Chroma 的 Agent 则收敛为「搜一次就停」。每种退化行为都需要针对性地调整奖励函数。

原文链接

纠错/举报