Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)

引言

随着 DeepSeek R1 等大规模模型的出现以及 AI 需求的激增，推理性能上即使微小的差异，在大规模部署时也可能转化为数百万美元的单 token 成本差距。这使得 GPU 推理性能的客观测量变得愈发重要，SemiAnalysis 的开源基准测试框架 InferenceMAX 就是一个典型案例。InferenceMAX 每晚在数百块 GPU 上运行测试，实时跟踪推理性能，已成为业界最受信赖的测量系统之一。

问题在于，许多人将公开的 InferenceMAX 数据视为硬件的实际性能上限。但这些数据反映的是默认开源软件（SGLang）所能达到的水平——而非硬件本身的极限。根据软件优化的深度，相同的硬件可以释放出显著更高的性能。这一点在 AMD 上尤为明显，因为相比 NVIDIA 的 CUDA 生态系统，AMD 的推理软件尚不成熟——这意味着存在更大的优化空间，软件的作用也更加关键。

我们使用自研的优化推理引擎运行了同样的 InferenceMAX 基准测试，观察到与已公布的 InferenceMAX 数据相比， 端到端延迟提升 1.47 倍，每 GPU 吞吐量提升 1.47 倍（几何平均值）。这证实了软件优化仍然是释放 AMD GPU 全部潜力的关键——而 Moreh 具备实现这一目标的技术能力。对于考虑采用 AMD 基础设施的组织而言，与 Moreh 合作可以在相同硬件上实现更高的推理性能，最终在大规模部署中降低推理成本。在本文中，我们将展示测试结果，说明软件优化在相同硬件上能带来多大的性能差异。

挑战：软件才是 AMD GPU 的真正瓶颈

从规格来看，AMD Instinct MI300X 是一款令人印象深刻的推理加速器。它配备 192 GB HBM3 内存和 5.3 TB/s 的内存带宽——分别约为竞品 NVIDIA H100 的 2.4 倍和 1.7 倍。

但在实际应用中，AMD 的推理软件生态系统不如 NVIDIA 基于 CUDA 的技术栈成熟。SemiAnalysis 在其报告中也指出，可组合性是 AMD 面临的最大挑战。各项优化技术——FP8 量化、MoE kernel、Expert Parallelism——单独使用时效果良好，但将它们集成到一个生产级流水线中仍然困难重重。

DeepSeek R1 模型本身的特性增加了额外的复杂性。它是一个拥有 671B 参数的 MoE 模型，每个 decoder block 包含 256 个 expert，结合 Multi-Head Latent Attention (MLA) 和长链式思维输出——形成了一个宽广的优化面。这也意味着默认的开源软件配置无法挖掘的性能提升空间相当可观。

为解决这些瓶颈，Moreh 开发了自有的推理引擎，优化深入到 GPU kernel 层面。我们攻克了默认开源软件所忽略的领域——MoE kernel 效率、FP8 KV cache 利用率、kernel launch 开销等——以进一步提升性能。下文将详细分析 Moreh 优化推理引擎如何超越现有开源软件在 InferenceMAX 基准测试中的结果。

测试环境

Category	Specification
GPU	AMD Instinct MI300X (8 GPUs per node)
Model	DeepSeek R1 0528
Precision	FP8
Benchmark	InferenceMAX benchmark suite
Baseline	Public SGLang results (January 26, 2026)
Inference Framework	Moreh Optimized Inference Engine (Moreh-vLLM)

基准测试配置

我们完全复制了 InferenceMAX 的基准测试配置，涵盖三种典型的 ISL/OSL（Input Sequence Length / Output Sequence Length）场景：

1K/1K — 均衡负载（短上下文问答、对话）
1K/8K — 长输出负载（推理、编码、链式思维）
8K/1K — 长输入负载（文档处理、摘要、RAG）

每种场景在并发级别 4、8、16、32 和 64（总请求量从 40 到 640 不等）下进行测试，并采用无限请求速率以衡量最大吞吐量。

性能评估

结果概要

在所有 15 种基准测试配置中，Moreh-vLLM——基于 Moreh 优化技术构建的推理引擎——在相同的 AMD MI300X 硬件上始终优于已公布的 InferenceMAX 数据。

Metric	Geometric Mean Improvement
Median End-to-End Latency (E2EL)	1.47x
Total Throughput per GPU (tok/s/gpu)	1.47x

Figure 1. Performance speedup for various request patterns (end-to-end latency). — 图 1. 不同请求模式下的性能加速。数值越高越好。Moreh-vLLM 的端到端延迟平均降低 1.47 倍。

Figure 2. Performance speedup for various request patterns (throughput). — 图 2. 不同请求模式下的性能加速。数值越高越好。Moreh-vLLM 的吞吐量平均提升 1.47 倍。

各场景详细分析

1K/1K (ISL=1,024, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	24.68	15.43	1.60x	35.91	58.29	1.62x
8	27.06	17.64	1.53x	66.15	103.44	1.56x
16	29.6	22.18	1.33x	120.13	163.57	1.36x
32	37.57	29.25	1.28x	190.84	247.98	1.30x
64	48.55	39.15	1.24x	294.07	371.63	1.26x

性能提升在低并发（CON=4）时最为显著，延迟提升 1.60 倍，吞吐量提升 1.62 倍。这是 Moreh 的优化有效消除了在小批量时占主导地位的 kernel launch 开销的结果。

虽然随着并发的增加，性能增益有所收敛，但即使在 CON=64 时仍保持了超过 1.24 倍的显著提升。

Figure 3. Throughput-Latency trade-off comparison (ISL=1,024, OSL=1,024). — 图 3. 吞吐量-延迟权衡对比 (ISL=1,024, OSL=1,024)。Moreh 通过在显著更低的端到端延迟下保持更高吞吐量，展示了优于 SGLang 的效率。

1K/8K (ISL=1,024, OSL=8,192)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	203.9	117.62	1.73x	19.4	33.69	1.74x
8	210.22	134.7	1.56x	38.48	60.11	1.56x
16	239.432	173.8	1.38x	67.84	93.49	1.38x
32	347.05	221.34	1.57x	93.95	147.16	1.57x
64	395.78	291.09	1.36x	162.89	221.7	1.36x

1K/8K 场景涉及长输出生成，旨在对 decode 性能进行压力测试。这正是 Moreh 在最大化内存带宽利用率方面的优化最为突出的场景。特别是 CON=4 时 1.73 倍的延迟提升和 1.74 倍的吞吐量增益，清晰地展示了我们的优化对长生成负载的影响。

随着并发的增加，负载逐渐转向计算密集型，软件优化的差距随之缩小。然而，即使在 CON=64 时，我们在端到端延迟和吞吐量方面仍录得 1.36 倍的显著性能提升。

Figure 4. Throughput-Latency trade-off comparison (ISL=1,024, OSL=8,192). — 图 4. 吞吐量-延迟权衡对比 (ISL=1,024, OSL=8,192)。Moreh 通过在显著更低的端到端延迟下保持更高吞吐量，展示了优于 SGLang 的效率。

8K/1K (ISL=8,192, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	30.84	16.82	1.83x	129.74	236.7	1.82x
8	32.72	20.49	1.60x	243.75	396.34	1.63x
16	38.77	28.24	1.37x	402.33	567.92	1.41x
32	60.31	41.33	1.46x	522.94	781.02	1.49x
64	88.06	64.75	1.36x	722.49	840.53	1.16x

8K/1K 场景是 prefill 主导的负载。CON=4 时 1.83 倍的峰值延迟提升归功于 Moreh 针对 prefill 阶段的 kernel 优化。值得注意的是，即使在最大并发（CON=64）下，我们也实现了 1.36 倍的延迟提升和 1.16 倍的吞吐量增益——证明即使在高负载下也具有显著的性能优势。

Figure 5. Throughput-Latency trade-off comparison (ISL=8,192, OSL=1,024). — 图 5. 吞吐量-延迟权衡对比 (ISL=8,192, OSL=1,024)。Moreh 通过在显著更低的端到端延迟下保持更高吞吐量，展示了优于 SGLang 的效率。

关键发现

所有并发级别下性能均有一致提升。 相同的模式出现在所有三种场景中。在小批量时，kernel launch 开销和逐操作低效性主导了整体性能——这正是 Moreh 的优化产生最大影响的地方。即使并发增加，在所有配置中仍保持至少 1.16 倍的稳定性能提升，表明优化效益并不局限于特定条件，而是全面一致地适用。
Moreh 的优化对长输出负载同样价值显著。 随着推理模型的兴起，链式思维等长输出负载正在快速增长。在 1K/8K 场景中，我们观察到 1.36 倍至 1.74 倍的性能提升——这是在长 decode 序列中持续带宽利用率优化的结果。
吞吐量和延迟的提升几乎以相同速率扩展。 几何平均值几乎对称，均为 1.47 倍。这表明我们的优化并非简单地移动延迟-吞吐量权衡曲线——而是切实提升了计算效率。
硬件完全相同，唯一的变量是软件。 所有结果均在相同的 AMD MI300X GPU 上取得。性能差异源于我们超越默认开源软件的深度优化——在小批量时减少 kernel launch 开销、最大化 GPU 内存带宽利用率、优化 prefill 操作等。

结论

AMD GPU 上的软件优化并非随开源软件而止步。InferenceMAX 上公布的数据也并不代表硬件的性能极限。在本次评估中，我们证明了通过更深层次的软件优化，AMD MI300X 在 DeepSeek R1 FP8 推理中可以实现 端到端延迟提升 1.47 倍，每 GPU 吞吐量提升 1.47 倍——相较于当前公布的 InferenceMAX 基线。

推理效率的每一个百分点都直接转化为大规模部署开放权重模型的 CSP 和企业的单 token 成本节省。Moreh 可以成为希望采用 AMD 基础设施的组织的可靠软件合作伙伴，帮助他们从相同硬件中获取最大性能。我们将继续推动 AMD GPU 上推理性能的边界，使更多组织能够充分实现 AMD 基础设施的价值。

如需了解更多关于 Moreh 推理优化的详情，请访问 moreh.io 和 docs.moreh.io。

Moreh 释放 AMD MI300X 潜力：DeepSeek R1 推理速度比 SGLang (InferenceMAX) 快 1.5 倍

引言