header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

不用离线训练草稿模型了:Together AI开源Aurora,推测解码边推理边自学

1M AI News 监测,AI 云平台 Together AI 开源 Aurora,一个基于强化学习的推测解码(speculative decoding)自适应框架。推测解码是当前加速大模型推理的主流手段:用一个小型「草稿模型」快速预测 token 序列,再由大模型并行验证,命中的直接采用,未命中的丢弃重来。问题在于,草稿模型是离线训练的静态产物,生产流量一旦漂移(模型升级、用户群变化、任务类型切换),预测准确率就持续下降,而重新离线训练既昂贵又滞后。

Aurora 把推测解码重新建模为强化学习问题:草稿模型是策略,大模型验证器是环境,被接受的 token 是正奖励,被拒绝的是负反馈。系统分推理服务器和训练服务器两个解耦组件,推理端正常处理请求并将验证结果流式写入缓冲区,训练端异步拉取数据更新草稿模型权重后热替换回推理端,全程不中断服务。

在 4 万条跨 5 个领域(数学推理、Text-to-SQL、代码生成、金融、通用对话)的模拟流量测试中,Aurora 在流量域突变后约 1 万条请求内恢复接受长度,比训练充分的静态草稿模型额外提速 1.25 倍。更值得注意的结果是,从零开始在线训练的 Aurora 接受长度达到 3.08,超过静态基线的 2.63 和「先预训练再微调」基线的 2.99,吞吐量稳定在 302.3 tokens/秒,直接挑战了「推测解码必须依赖大规模离线预训练」的既有认知。

端到端实测中,在 Qwen3-Coder-Next(FP8)上 batch size 为 1 时推测解码带来 1.92 倍加速,MiniMax M2.5(FP8)上为 1.63 倍。Aurora 去年发布的前身 ATLAS 奠定了自适应推测器的基础,此次升级为完全自主的闭环系统。代码已在 GitHub 开源。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成