不用离线训练草稿模型了：Together AI开源Aurora，推测解码边推理边自学

据 1M AI News 监测，AI 云平台 Together AI 开源 Aurora，一个基于强化学习的推测解码（speculative decoding）自适应框架。推测解码是当前加速大模型推理的主流手段：用一个小型「草稿模型」快速预测 token 序列，再由大模型并行验证，命中的直接采用，未命中的丢弃重来。问题在于，草稿模型是离线训练的静态产物，生产流量一旦漂移（模型升级、用户群变化、任务类型切换），预测准确率就持续下降，而重新离线训练既昂贵又滞后。

Aurora 把推测解码重新建模为强化学习问题：草稿模型是策略，大模型验证器是环境，被接受的 token 是正奖励，被拒绝的是负反馈。系统分推理服务器和训练服务器两个解耦组件，推理端正常处理请求并将验证结果流式写入缓冲区，训练端异步拉取数据更新草稿模型权重后热替换回推理端，全程不中断服务。

在 4 万条跨 5 个领域（数学推理、Text-to-SQL、代码生成、金融、通用对话）的模拟流量测试中，Aurora 在流量域突变后约 1 万条请求内恢复接受长度，比训练充分的静态草稿模型额外提速 1.25 倍。更值得注意的结果是，从零开始在线训练的 Aurora 接受长度达到 3.08，超过静态基线的 2.63 和「先预训练再微调」基线的 2.99，吞吐量稳定在 302.3 tokens/秒，直接挑战了「推测解码必须依赖大规模离线预训练」的既有认知。

端到端实测中，在 Qwen3-Coder-Next（FP8）上 batch size 为 1 时推测解码带来 1.92 倍加速，MiniMax M2.5（FP8）上为 1.63 倍。Aurora 去年发布的前身 ATLAS 奠定了自适应推测器的基础，此次升级为完全自主的闭环系统。代码已在 GitHub 开源。

原文链接

纠错/举报