小米MiMo负责人罗福莉新论文：ARL-Tangram将Agent强化学习算力成本压低71.2%

据 1M AI News 监测，前 DeepSeek 研究员、小米 MiMo 大模型负责人罗福莉与北京大学合作团队近日在 arXiv 发表论文，提出用于 Agent 强化学习的动作级资源管理系统 ARL-Tangram，已部署于 MiMo 系列模型的训练中。罗福莉为末位作者（注：末位作者通常是科研项目负责人、导师，在学术论文中居最后一位，多为该研究的通讯作者）。

ARL-Tangram 的核心思路是将外部资源管理粒度从轨迹级或任务级细化至动作级（即单次原子调用），对 CPU、GPU、API 配额等外部资源实施统一调度与弹性分配，避免为每条完整轨迹全程预留固定资源所导致的闲置浪费。实验涵盖 AI 编码、DeepSearch 网络搜索、视觉模型提示词蒸馏三类 Agent 强化学习任务，结果显示平均动作完成时间（ACT）提升最高 4.3 倍，训练单步时长缩短最高 1.5 倍，外部资源消耗节省高达 71.2%。

原文链接

纠错/举报