header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Cursor公开MoE推理优化技术Warp Decode,Blackwell GPU上吞吐量提升1.84倍

1M AI News 监测,AI 编程工具 Cursor 发布技术博客,介绍其自研的 MoE(混合专家模型)推理加速方法 Warp Decode。该方法针对英伟达 Blackwell GPU 上的小批量 token 生成场景,将传统以专家为中心的并行策略翻转为以输出为中心:GPU 中每个 warp(32 个并行处理单元组成的最小调度单位)只负责计算一个输出值,独立遍历所有被路由到的专家并在寄存器中完成累加,无需任何跨 warp 同步或中间缓冲区。

传统 MoE 推理流水线共 8 个阶段,其中 5 个仅用于为专家视图搬运数据,不执行实际计算。Warp Decode 将整个 MoE 计算层压缩为 2 个 CUDA kernel,省去了填充、分散、合并等中间步骤,每个 token 减少超过 32KB 的中间缓冲区读写。

在英伟达 B200 GPU 上以 Qwen-3 风格模型实测,Warp Decode 实现 1.84 倍端到端解码吞吐量提升,且因全程以 BF16/FP32 精度计算、避免了中间量化损失,输出精度比传统路径接近 FP32 基准值 1.4 倍。硬件带宽利用率方面,批量大小为 32 时持续吞吐达 3.95 TB/s,约为 B200 峰值带宽(6.8 TB/s)的 58%。该优化直接加速了 Cursor 自研编程模型 Composer 的研发迭代和版本发布节奏。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成