据 1M AI News 监测,AIMING Lab 近日开源 MetaClaw,一个让 OpenClaw Agent 在持续运行中自我进化的元学习框架。核心问题是:部署后的 Agent 是静态的,用户需求在变,但更新模型通常需要停机重训。MetaClaw 通过两个互相增强的机制解决这个问题:
1. 技能驱动的快速适应:Agent 失败时,由一个 LLM Evolver 分析失败轨迹,自动提炼出新的可复用技能注入技能库,全程零停机
2. 机会主义策略优化:在用户不活跃的时间窗口(由调度器监控系统空闲和日历数据触发),通过云端 LoRA 微调和过程奖励模型强化学习对底层策略做梯度更新
两个机制形成正循环:更好的策略产生更好的失败轨迹用于技能提炼,更丰富的技能又为策略优化提供更高质量的数据。整个框架采用代理架构,不需要本地 GPU,可直接作用于生产级大模型。
实验结果:技能适应机制将准确率相对提升最高 32%;完整流程将 Kimi-K2.5 的准确率从 21.4% 提升至 40.6%,复合鲁棒性提升 18.3%。项目开源后短时间内在 GitHub 获得超过 3000 颗星。团队同时开源了 AutoResearchClaw,一个基于同一框架的全自动科研 Agent。