Cursor公开MoE推理优化技术Warp Decode，Blackwell GPU上吞吐量提升1.84倍

据 1M AI News 监测，AI 编程工具 Cursor 发布技术博客，介绍其自研的 MoE（混合专家模型）推理加速方法 Warp Decode。该方法针对英伟达 Blackwell GPU 上的小批量 token 生成场景，将传统以专家为中心的并行策略翻转为以输出为中心：GPU 中每个 warp（32 个并行处理单元组成的最小调度单位）只负责计算一个输出值，独立遍历所有被路由到的专家并在寄存器中完成累加，无需任何跨 warp 同步或中间缓冲区。

传统 MoE 推理流水线共 8 个阶段，其中 5 个仅用于为专家视图搬运数据，不执行实际计算。Warp Decode 将整个 MoE 计算层压缩为 2 个 CUDA kernel，省去了填充、分散、合并等中间步骤，每个 token 减少超过 32KB 的中间缓冲区读写。

在英伟达 B200 GPU 上以 Qwen-3 风格模型实测，Warp Decode 实现 1.84 倍端到端解码吞吐量提升，且因全程以 BF16/FP32 精度计算、避免了中间量化损失，输出精度比传统路径接近 FP32 基准值 1.4 倍。硬件带宽利用率方面，批量大小为 32 时持续吞吐达 3.95 TB/s，约为 B200 峰值带宽（6.8 TB/s）的 58%。该优化直接加速了 Cursor 自研编程模型 Composer 的研发迭代和版本发布节奏。

原文链接

纠错/举报