header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

罗福莉复盘MiMo-V2:Agent范式转变来得太快,「悄然伏击」背后是结构优势

1M AI News 监测,小米 MiMo 大模型负责人罗福莉(@_LuoFuli)在 MiMo-V2 系列发布后于 X 发长文复盘。她此前曾在 DeepSeek 参与 R1 和 V2 研发,2025 年 2 月加入小米。她以「悄然伏击」概括此次发布:「不是因为我们有所谋划,而是因为 Chat 到 Agent 的范式转变来得太快,连我们自己都几乎不敢相信。」

她透露,1T 基座模型从数月前就已开始训练,当时的目标只是长上下文推理效率。Hybrid Attention 架构、100 万 Token 上下文窗口、MTP 推理这些设计决策「并非追潮流,而是提前建立的结构优势」,没想到恰好成为 Agent 时代所需要的基础。

转折发生在她第一次体验复杂 Agent 框架(她称之为「编排 Context」)时。她说自己「第一天就被震撼了」,随即试图说服团队接受,没有成功;于是发出硬性指令:「MiMo 团队明天对话数少于 100 次的可以离职。」此举奏效了。一旦团队对 Agent 系统的想象力被点燃,这种想象力就直接转化成了研究速度。

对于为何能快速迭代,她总结了两块截然不同的肌肉:基础模型和基础设施研究周期长,需要提前一年的战略判断;后训练敏捷性则是另一种能力,靠产品直觉驱动评测,压缩迭代周期,提早捕捉范式转变。「不变的量永远是:好奇心、敏锐的技术直觉、果断执行,以及对你所构建的世界真正的热爱。」文末她表示,将在模型「足够稳定、值得开源时」开放模型。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成