Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20

背景

StepFun 的 Step3 是一个拥有 321B 参数的 Mixture-of-Experts (MoE) 多模态模型，每个 token 激活 38B 参数。该模型包含 61 层，其中 56 层为 MoE 层，采用 3-in-48 专家选择策略，并引入了 Multi-Matrix Factorization Attention (MFA)，将 KV-cache 需求降低至 DeepSeek V3 每 token 注意力开销的约 22%。

StepFun 此前使用 NVIDIA H20 GPU 部署 Step3，并希望评估 AMD Instinct MI308X 作为替代方案。在 Step3 公开发布为开源之前，Moreh 受邀为一个与 Step3 架构相同的私有模型在 MI308X 上进行推理优化。这是 Moreh 自定义模型优化服务的一个案例，我们为专有模型架构适配 Moreh vLLM。

为什么选择 MI308X 进行 Decode

AMD Instinct MI308X 是 MI300X 在中国市场推出的一个变体。它的计算核心数量为 MI300X 的 1/4，但保留了相同的 HBM3e 内存容量和带宽。这使得 MI308X 特别适合 LLM 推理的 decode 阶段，该阶段受限于内存带宽而非计算能力：token 以自回归方式逐个生成，瓶颈在于从内存加载模型权重和 KV-cache — 而非执行矩阵乘法。

优化技术

自定义 HIP attention kernel：默认的 vLLM Triton attention kernel 是最大的瓶颈，占用了约 50% 的 GPU 时间。我们针对 Step3 的 MFA 配置（64 query heads、1 KV head、head dimension 256）开发了带有 data parallelism 的自定义 HIP attention kernel。我们的 kernel 将 decode batch 的 attention 延迟降低了 72%，混合 prefill/decode batch 的延迟降低了 37%。
CUDA graph：在 GPU kernel 延迟显著降低后，CPU 端开销成为 decode 步骤的下一个瓶颈。我们为使用 DP8-EP8 parallelism 的 Step3 模型启用了完整的 CUDA graph 捕获，将 decode 吞吐量从约 2,900 提升至 4,100 tok/s。
混合 BF16–FP8 blockscale 量化：对 BF16 和 FP8 blockscale 计算进行了详尽的 GEMM 调优，以实现最佳的精度–效率权衡。
优化的 MoE one-stage kernel：针对 Step3 的 MoE 层进行了自定义 kernel 优化，重点优化 inter_dim 参数。
Shared-expert MLP 融合：将 shared-expert MLP 集成到 MoE 层中，以减少冗余计算并改善推理延迟。
MoRI EP 集成：集成 MoRI 库，以在 AMD GPU 上实现高效的 expert-parallel all-to-all 通信。

性能结果

我们在 8× MI308X 上对 Moreh vLLM 进行了基准测试，并与 StepFun 在 8× NVIDIA H20 上报告的数据进行对比，使用相同的测试配置：ISL=4096、OSL=256、Concurrency=256，采用 DP8-EP8 parallelism（attention 使用 8 路 data parallelism，MoE 使用 8 路 expert parallelism）。

Moreh vLLM (MI308X) 与 StepFun (H20) 的 decode 吞吐量和延迟对比 — Decode 性能对比：Moreh vLLM (MI308X) vs. StepFun (H20)。

	Decode		Prefill
	Throughput (tok/s)	Latency (ms)	Throughput (tok/s)	Latency (ms)
Moreh vLLM (MI308X)	4,082	63	9,601	109,217
StepFun (H20)	3,147	82	13,780	76,420
Speedup	1.30×	1.30×	0.70×	0.70×

ISL=4096, OSL=256, Concurrency=256, DP8-EP8. Speedup 为 Moreh/StepFun 的吞吐量比值，延迟为 StepFun/Moreh 的比值（两种情况下数值越高对 Moreh 越有利）。

结果显示两个阶段之间存在明显的差异：

Decode：Moreh vLLM 在 MI308X 上实现了 4,082 tok/s — 与 StepFun 的 H20 基线相比，吞吐量提升 1.30×，延迟降低 1.30×（63 ms vs. 82 ms）。
Prefill：H20 在计算密集型的 prefill 阶段保持优势（13,780 vs. 9,601 tok/s），这在意料之中，因为其片上缓存子系统更强。

在采用 prefill–decode 分离架构的生产环境中，decode 阶段是分配最多 GPU 的环节。MI308X 出色的 decode 性能可直接转化为大规模部署中的成本效益。

总结

本次合作表明，AMD Instinct MI308X 搭配 Moreh vLLM 的模型专属优化，能够在大型 MoE 模型上实现比 NVIDIA H20 更高的 decode 吞吐量。MI308X 相对于其计算能力拥有较高的内存带宽，使其成为 decode 阶段的高性价比选择，而 decode 阶段在生产环境 LLM 推理部署中占据了大部分 GPU 分配。

Moreh 为专有模型和微调模型提供自定义 vLLM 优化服务。如果您正在评估 AMD GPU 用于您的模型，请联系我们，讨论我们如何提供帮助。

Step3 推理优化：AMD Instinct MI308X 的 Decode 吞吐量比 NVIDIA H20 高 1.30 倍

背景

为什么选择 MI308X 进行 Decode

优化技术

性能结果

总结