Blog
Moreh 释放 AMD MI300X 潜力:DeepSeek R1 推理速度比 SGLang (InferenceMAX) 快 1.5 倍
March 16, 2026
Authors: Bongwon Jang
本文档由AI自动翻译。内容可能存在不准确之处,如有需要请参阅英文原文。 查看英文原文
引言
随着 DeepSeek R1 等大规模模型的出现以及 AI 需求的激增,推理性能上即使微小的差异,在大规模部署时也可能转化为数百万美元的单 token 成本差距。这使得 GPU 推理性能的客观测量变得愈发重要,SemiAnalysis 的开源基准测试框架 InferenceMAX 就是一个典型案例。InferenceMAX 每晚在数百块 GPU 上运行测试,实时跟踪推理性能,已成为业界最受信赖的测量系统之一。
问题在于,许多人将公开的 InferenceMAX 数据视为硬件的实际性能上限。但这些数据反映的是默认开源软件(SGLang)所能达到的水平——而非硬件本身的极限。根据软件优化的深度,相同的硬件可以释放出显著更高的性能。这一点在 AMD 上尤为明显,因为相比 NVIDIA 的 CUDA 生态系统,AMD 的推理软件尚不成熟——这意味着存在更大的优化空间,软件的作用也更加关键。
我们使用自研的优化推理引擎运行了同样的 InferenceMAX 基准测试,观察到与已公布的 InferenceMAX 数据相比, 端到端延迟提升 1.47 倍,每 GPU 吞吐量提升 1.47 倍(几何平均值)。这证实了软件优化仍然是释放 AMD GPU 全部潜力的关键——而 Moreh 具备实现这一目标的技术能力。对于考虑采用 AMD 基础设施的组织而言,与 Moreh 合作可以在相同硬件上实现更高的推理性能,最终在大规模部署中降低推理成本。在本文中,我们将展示测试结果,说明软件优化在相同硬件上能带来多大的性能差异。
挑战:软件才是 AMD GPU 的真正瓶颈
从规格来看,AMD Instinct MI300X 是一款令人印象深刻的推理加速器。它配备 192 GB HBM3 内存和 5.3 TB/s 的内存带宽——分别约为竞品 NVIDIA H100 的 2.4 倍和 1.7 倍。
但在实际应用中,AMD 的推理软件生态系统不如 NVIDIA 基于 CUDA 的技术栈成熟。SemiAnalysis 在其报告中也指出,可组合性是 AMD 面临的最大挑战。各项优化技术——FP8 量化、MoE kernel、Expert Parallelism——单独使用时效果良好,但将它们集成到一个生产级流水线中仍然困难重重。
DeepSeek R1 模型本身的特性增加了额外的复杂性。它是一个拥有 671B 参数的 MoE 模型,每个 decoder block 包含 256 个 expert,结合 Multi-Head Latent Attention (MLA) 和长链式思维输出——形成了一个宽广的优化面。这也意味着默认的开源软件配置无法挖掘的性能提升空间相当可观。
为解决这些瓶颈,Moreh 开发了自有的推理引擎,优化深入到 GPU kernel 层面。我们攻克了默认开源软件所忽略的领域——MoE kernel 效率、FP8 KV cache 利用率、kernel launch 开销等——以进一步提升性能。下文将详细分析 Moreh 优化推理引擎如何超越现有开源软件在 InferenceMAX 基准测试中的结果。
测试环境
| Category | Specification |
|---|---|
| GPU | AMD Instinct MI300X (8 GPUs per node) |
| Model | DeepSeek R1 0528 |
| Precision | FP8 |
| Benchmark | InferenceMAX benchmark suite |
| Baseline | Public SGLang results (January 26, 2026) |
| Inference Framework | Moreh Optimized Inference Engine (Moreh-vLLM) |
基准测试配置
我们完全复制了 InferenceMAX 的基准测试配置,涵盖三种典型的 ISL/OSL(Input Sequence Length / Output Sequence Length)场景:
- 1K/1K — 均衡负载(短上下文问答、对话)
- 1K/8K — 长输出负载(推理、编码、链式思维)
- 8K/1K — 长输入负载(文档处理、摘要、RAG)
每种场景在并发级别 4、8、16、32 和 64(总请求量从 40 到 640 不等)下进行测试,并采用无限请求速率以衡量最大吞吐量。
性能评估
结果概要
在所有 15 种基准测试配置中,Moreh-vLLM——基于 Moreh 优化技术构建的推理引擎——在相同的 AMD MI300X 硬件上始终优于已公布的 InferenceMAX 数据。
| Metric | Geometric Mean Improvement |
|---|---|
| Median End-to-End Latency (E2EL) | 1.47x |
| Total Throughput per GPU (tok/s/gpu) | 1.47x |


各场景详细分析
1K/1K (ISL=1,024, OSL=1,024)
| CON | Median E2E Latency (s) | Total Throughput per GPU (tok/s/gpu) | ||||
|---|---|---|---|---|---|---|
| SGLang | Moreh-vLLM | Improvement | SGLang | Moreh-vLLM | Improvement | |
| 4 | 24.68 | 15.43 | 1.60x | 35.91 | 58.29 | 1.62x |
| 8 | 27.06 | 17.64 | 1.53x | 66.15 | 103.44 | 1.56x |
| 16 | 29.6 | 22.18 | 1.33x | 120.13 | 163.57 | 1.36x |
| 32 | 37.57 | 29.25 | 1.28x | 190.84 | 247.98 | 1.30x |
| 64 | 48.55 | 39.15 | 1.24x | 294.07 | 371.63 | 1.26x |
性能提升在低并发(CON=4)时最为显著,延迟提升 1.60 倍,吞吐量提升 1.62 倍。这是 Moreh 的优化有效消除了在小批量时占主导地位的 kernel launch 开销的结果。
虽然随着并发的增加,性能增益有所收敛,但即使在 CON=64 时仍保持了超过 1.24 倍的显著提升。

1K/8K (ISL=1,024, OSL=8,192)
| CON | Median E2E Latency (s) | Total Throughput per GPU (tok/s/gpu) | ||||
|---|---|---|---|---|---|---|
| SGLang | Moreh-vLLM | Improvement | SGLang | Moreh-vLLM | Improvement | |
| 4 | 203.9 | 117.62 | 1.73x | 19.4 | 33.69 | 1.74x |
| 8 | 210.22 | 134.7 | 1.56x | 38.48 | 60.11 | 1.56x |
| 16 | 239.432 | 173.8 | 1.38x | 67.84 | 93.49 | 1.38x |
| 32 | 347.05 | 221.34 | 1.57x | 93.95 | 147.16 | 1.57x |
| 64 | 395.78 | 291.09 | 1.36x | 162.89 | 221.7 | 1.36x |
1K/8K 场景涉及长输出生成,旨在对 decode 性能进行压力测试。这正是 Moreh 在最大化内存带宽利用率方面的优化最为突出的场景。特别是 CON=4 时 1.73 倍的延迟提升和 1.74 倍的吞吐量增益,清晰地展示了我们的优化对长生成负载的影响。
随着并发的增加,负载逐渐转向计算密集型,软件优化的差距随之缩小。然而,即使在 CON=64 时,我们在端到端延迟和吞吐量方面仍录得 1.36 倍的显著性能提升。

8K/1K (ISL=8,192, OSL=1,024)
| CON | Median E2E Latency (s) | Total Throughput per GPU (tok/s/gpu) | ||||
|---|---|---|---|---|---|---|
| SGLang | Moreh-vLLM | Improvement | SGLang | Moreh-vLLM | Improvement | |
| 4 | 30.84 | 16.82 | 1.83x | 129.74 | 236.7 | 1.82x |
| 8 | 32.72 | 20.49 | 1.60x | 243.75 | 396.34 | 1.63x |
| 16 | 38.77 | 28.24 | 1.37x | 402.33 | 567.92 | 1.41x |
| 32 | 60.31 | 41.33 | 1.46x | 522.94 | 781.02 | 1.49x |
| 64 | 88.06 | 64.75 | 1.36x | 722.49 | 840.53 | 1.16x |
8K/1K 场景是 prefill 主导的负载。CON=4 时 1.83 倍的峰值延迟提升归功于 Moreh 针对 prefill 阶段的 kernel 优化。值得注意的是,即使在最大并发(CON=64)下,我们也实现了 1.36 倍的延迟提升和 1.16 倍的吞吐量增益——证明即使在高负载下也具有显著的性能优势。

关键发现
- 所有并发级别下性能均有一致提升。 相同的模式出现在所有三种场景中。在小批量时,kernel launch 开销和逐操作低效性主导了整体性能——这正是 Moreh 的优化产生最大影响的地方。即使并发增加,在所有配置中仍保持至少 1.16 倍的稳定性能提升,表明优化效益并不局限于特定条件,而是全面一致地适用。
- Moreh 的优化对长输出负载同样价值显著。 随着推理模型的兴起,链式思维等长输出负载正在快速增长。在 1K/8K 场景中,我们观察到 1.36 倍至 1.74 倍的性能提升——这是在长 decode 序列中持续带宽利用率优化的结果。
- 吞吐量和延迟的提升几乎以相同速率扩展。 几何平均值几乎对称,均为 1.47 倍。这表明我们的优化并非简单地移动延迟-吞吐量权衡曲线——而是切实提升了计算效率。
- 硬件完全相同,唯一的变量是软件。 所有结果均在相同的 AMD MI300X GPU 上取得。性能差异源于我们超越默认开源软件的深度优化——在小批量时减少 kernel launch 开销、最大化 GPU 内存带宽利用率、优化 prefill 操作等。
结论
AMD GPU 上的软件优化并非随开源软件而止步。InferenceMAX 上公布的数据也并不代表硬件的性能极限。在本次评估中,我们证明了通过更深层次的软件优化,AMD MI300X 在 DeepSeek R1 FP8 推理中可以实现 端到端延迟提升 1.47 倍,每 GPU 吞吐量提升 1.47 倍——相较于当前公布的 InferenceMAX 基线。
推理效率的每一个百分点都直接转化为大规模部署开放权重模型的 CSP 和企业的单 token 成本节省。Moreh 可以成为希望采用 AMD 基础设施的组织的可靠软件合作伙伴,帮助他们从相同硬件中获取最大性能。我们将继续推动 AMD GPU 上推理性能的边界,使更多组织能够充分实现 AMD 基础设施的价值。
如需了解更多关于 Moreh 推理优化的详情,请访问 moreh.io 和 docs.moreh.io。