header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

小米MiMo负责人罗福莉新论文:ARL-Tangram将Agent强化学习算力成本压低71.2%

1M AI News 监测,前 DeepSeek 研究员、小米 MiMo 大模型负责人罗福莉与北京大学合作团队近日在 arXiv 发表论文,提出用于 Agent 强化学习的动作级资源管理系统 ARL-Tangram,已部署于 MiMo 系列模型的训练中。罗福莉为末位作者(注:末位作者通常是科研项目负责人、导师,在学术论文中居最后一位,多为该研究的通讯作者)。

ARL-Tangram 的核心思路是将外部资源管理粒度从轨迹级或任务级细化至动作级(即单次原子调用),对 CPU、GPU、API 配额等外部资源实施统一调度与弹性分配,避免为每条完整轨迹全程预留固定资源所导致的闲置浪费。实验涵盖 AI 编码、DeepSearch 网络搜索、视觉模型提示词蒸馏三类 Agent 强化学习任务,结果显示平均动作完成时间(ACT)提升最高 4.3 倍,训练单步时长缩短最高 1.5 倍,外部资源消耗节省高达 71.2%。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成