Technical Report
AMD Instinct MI300X GPU 上的 Moreh vLLM 性能评估:DeepSeek V3/R1 671B
August 29, 2025
本文档由AI自动翻译。内容可能存在不准确之处,如有需要请参阅英文原文。 查看英文原文
概述
Moreh 开发软件以使各种 AI 工作负载(从预训练到推理)能够在非 NVIDIA 加速器上高效运行,尤其专注于 AMD GPU。
vLLM 是在研究、企业和生产环境中运行 LLM 服务最广泛采用的推理引擎之一。它由学术界和工业界共同贡献的强大开源社区开发,并广泛支持各种模型、硬件和优化技术。AMD 也在为该项目做贡献,使 vLLM 能够在 AMD GPU 和 ROCm 软件栈上运行。尽管如此,vLLM 中的大多数优化仍然针对 NVIDIA GPU,AMD GPU 硬件的性能尚未得到充分利用。
Moreh vLLM 是我们优化版本的 vLLM,旨在 AMD GPU 上提供卓越的 LLM 推理性能。它支持与原版 vLLM 相同的模型和功能,同时在 AMD CDNA 架构上最大化计算性能。这是通过 Moreh 专有的计算和通信库、模型级优化以及 vLLM 引擎级修改来实现的。
本技术报告评估了 DeepSeek V3/R1 671B 模型(当今最先进的开源 LLM 之一)在 Moreh vLLM 上的推理性能。我们在各种输入/输出长度和并发级别下进行了全面测试。与原版 vLLM 相比,Moreh vLLM 的平均吞吐量(每秒总输出 token 数)提高了 1.68 倍。此外,延迟指标(首 token 时间和每输出 token 时间)分别平均降低了 1.75 倍和 1.70 倍。总之,采用 Moreh vLLM 可以充分释放 AMD MI300 系列 GPU 的全部潜力,使其成为高效的推理系统。
AMD Instinct MI300X GPU
AMD Instinct MI300X GPU 是 NVIDIA H100 的有力替代方案。与 H100 相比,它提供 1.32 倍的理论计算性能、2.4 倍的内存容量和 1.58 倍的峰值内存带宽。特别是其显著更大的内存容量和带宽是优化 LLM 推理的主要优势。Table 1 比较了详细的硬件规格。

AMD 还发布了 MI325X 和 MI355X 作为 MI300X 的后续产品,分别是 NVIDIA H200 和 B200 GPU 的直接竞争对手。由于这些下一代型号也基于 AMD CDNA3 架构,Moreh vLLM 中的所有优化将继续无缝适用。我们计划在不久的将来发布 MI325X 和 MI355X 的性能评估结果,并始终欢迎能够提供开发和测试服务器的合作伙伴。
DeepSeek V3/R1 671B 优化
Moreh vLLM 集成了大量优化以提升 DeepSeek 671B 模型的性能,包括但不限于:
- 最优 GEMM 和 Attention 内核选择:为了在各种场景(如不同的输入/输出序列长度和批大小)下实现一致的高性能,Moreh vLLM 无需在线分析和手动调优即可动态选择最优的 GEMM 和 Attention 内核。
- Fused MoE 内核优化:我们实现了高度优化的 fused MoE 内核,性能优于 AMD 的 AITER 库,尤其在小批大小下表现突出。
- FP8 KV Cache 支持:Moreh vLLM 包含 Multi-head Latent Attention (MLA) 内核,使 KV cache 能够以 FP8 格式存储和加载。此优化显著提高了性能,尤其在长上下文场景中。
- 垂直和水平内核融合:Moreh vLLM 同时采用垂直融合(如 fused RoPE 内核)和水平融合(如合并 shared expert 中的多个 GEMM),以减少内核启动开销并提高计算效率。
- vLLM 引擎级修改:我们在 vLLM 引擎层面进行了修改,以更高效地利用 AMD GPU,包括利用 HIP graph 实现精简的内核执行。
实验设置
所有实验均在如下配置的 MI300X 服务器上进行:
- Server: Lenovo ThinkSystem SR685a V3
- CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
- GPU: 8x AMD Instinct MI300X OAM
- Main Memory: 2,304 GB (24x 96 GB)
- Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
- ROCm Version: 6.8.5
我们使用开源 vLLM 0.9.2(https://github.com/ROCm/vllm 的 v0.9.2 标签)作为对比基准。这是测试时可用的最新版本。DeepSeek 模型以 tensor parallelism (TP) 8 的方式在服务器的 8 个 GPU 上并行运行。得益于 AMD MI300X 192 GB 的大内存容量,即使以 FP8 格式在每个 GPU 上存储约 840 亿个参数后,仍有超过一半的 GPU 内存可用。这使服务器能够以高并发处理大量请求,展示了大规模生成式 AI 工作负载的显著优势。性能使用 vLLM 的 benchmark_serving 工具进行测量。如 Table 2 所示,我们选择了 70 种输入序列长度(ISL)、输出序列长度(OSL)和并发数的不同组合。实验设置是与我们在韩国的一位客户讨论后确定的。

Output TPS、TTFT 和 TPOT
Output tokens per second (TPS)、time to first token (TTFT) 和 time per output token (TPOT) 是评估 LLM 推理性能的三个关键指标。Output tokens per second 衡量系统的整体吞吐量,表示模型在所有并发请求中每秒能生成多少 token。Time to first token 捕获初始延迟——从发送请求到生成第一个 token 的时间。Time per output token 表示第一个 token 之后生成每个后续 token 的平均时间。Output tokens per second 与服务成本(每 token 价格)直接相关。后两个指标对用户感知的响应性非常重要。综合测量这三个指标可以全面评估推理性能,在成本和用户体验之间取得平衡。
Figure 1 展示了 output tokens per second 的对比图。Figure 2 和 Figure 3 分别展示了平均 time to first token 和平均 time per output token 的对比图。原始数据可在附录中找到。
Moreh vLLM 相比原版 vLLM 实现了 1.68 倍的总 output tokens per second、1.75 倍更低的 time to first token 和 1.7 倍更低的 time per output token。这表明在相同的 AMD MI300 系列 GPU 系统上,仅通过将软件替换为 Moreh vLLM 即可降低成本并改善用户体验。



延迟与吞吐量之间的权衡
LLM 推理存在延迟与吞吐量之间的固有权衡。增加 vLLM 实例的最大并发数可以提高吞吐量,但也会增加延迟;而降低并发数可以改善延迟,但会降低吞吐量。Figure 4 展示了原版 vLLM 和 Moreh vLLM 在各种请求模式(输入/输出序列长度)下的延迟-吞吐量权衡曲线。总体而言,图形越接近左上方,性能特性越优越。

结论
Moreh vLLM 融合了多种技术来优化 DeepSeek V3/R1 模型的推理,包括专有 GPU 库、模型级优化和 vLLM 引擎修改。因此,Moreh vLLM 在各种推理指标上相比原版开源 vLLM 实现了显著的性能提升。通过在 AMD MI300 系列 GPU 服务器上采用 Moreh vLLM,LLM 服务可以在降低成本的同时改善延迟。Moreh 还提供一项服务,在 AMD GPU 上优化客户的专有 AI 模型并为其提供按需 vLLM。
附录:原始数据
(请参阅 PDF 文件。)