Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUs

概述

Moreh 开发软件，使各种 AI 工作负载——从预训练到推理——能够在非 NVIDIA 加速器上高效运行，尤其专注于 AMD GPU。

vLLM 是在研究、企业和生产环境中运行 LLM 服务最广泛采用的推理引擎之一。它由一个强大的开源社区开发，获得了学术界和工业界的贡献，并广泛支持各种模型、硬件和优化技术。AMD 也在为该项目做出贡献，使 vLLM 能够在 AMD GPU 和 ROCm 软件栈上运行。尽管如此，vLLM 中的大多数优化仍然针对 NVIDIA GPU，AMD GPU 硬件的性能尚未得到充分利用。

Moreh vLLM 是我们优化版的 vLLM，旨在 AMD GPU 上提供卓越的 LLM 推理性能。它支持与原版 vLLM 相同的模型和功能，同时在 AMD CDNA 架构上最大化计算性能。这是通过 Moreh 的专有计算和通信库、模型级优化以及 vLLM 引擎级修改来实现的。

本技术报告评估了 Meta 的 Llama 3.3 70B 模型在 Moreh vLLM 上的推理性能。我们在各种输入/输出长度和并发级别上进行了全面测试。与原版 vLLM 相比，Moreh vLLM 的吞吐量（总输出 token/秒）平均提高了 1.68 倍。此外，延迟指标（首 token 时间和每输出 token 时间）分别平均降低了 2.02 倍和 1.59 倍。总之，采用 Moreh vLLM 可以充分释放 AMD MI300 系列 GPU 的潜力，使其成为高效的推理系统。

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU 是 NVIDIA H100 的有力替代方案。与 H100 相比，它提供 1.32 倍的理论计算性能、2.4 倍的内存容量和 1.58 倍的峰值内存带宽。特别是其显著更大的内存容量和带宽是优化 LLM 推理的重大优势。表 1 比较了详细的硬件规格。

AMD 还发布了 MI325X 和 MI355X 作为 MI300X 的后续产品，分别直接与 NVIDIA 的 H200 和 B200 GPU 竞争。由于这些下一代型号也基于 AMD CDNA3 架构，Moreh vLLM 中的所有优化将继续无缝适用。我们计划在不久的将来发布 MI325X 和 MI355X 的性能评估结果，并始终欢迎能够提供开发和测试服务器的合作伙伴。

实验设置

所有实验均在如下配置的 MI300X 服务器上进行：

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

我们使用开源 vLLM 0.9.2（https://github.com/ROCm/vllm 的 v0.9.2 标签）作为比较基准。这是测试时可用的最新版本。Llama 3.3 70B 模型以 tensor parallelism (TP) 为 2 在服务器的 2 块 GPU 上并行执行。性能使用 vLLM 的 benchmark_serving 工具进行测量。我们选择了 64 种不同的输入序列长度 (ISL)、输出序列长度 (OSL) 和并发数的组合，如表 2 所示。实验设置是与我们在韩国的一位客户讨论后确定的。

Output TPS、TTFT 和 TPOT

Output tokens per second (TPS)、time to first token (TTFT) 和 time per output token (TPOT) 是评估 LLM 推理性能的三个关键指标。Output tokens per second 衡量系统的整体吞吐量，表示模型在所有并发请求中每秒可以生成多少 token。Time to first token 衡量初始延迟——从发送请求到生成第一个 token 的时间。Time per output token 表示在第一个 token 之后生成每个后续 token 所需的平均时间。Output tokens per second 与服务成本（每 token 费用）直接相关。后两个指标对用户感知的响应速度很重要。综合测量这三个指标可以全面了解推理性能，平衡成本和用户体验。

图 1 显示了 output tokens per second 的比较图。图 2 和图 3 分别展示了平均 time to first token 和平均 time per output token 的比较图。原始数据可在附录中找到。

与原版 vLLM 相比，Moreh vLLM 实现了 1.68 倍的总 output tokens per second、2.02 倍更低的 time to first token 和 1.59 倍更低的 time per output token。特别值得注意的是，长输入序列的 time to first token 降低了约 3-4 倍。这表明，仅通过在同一 AMD MI300 系列 GPU 系统上将软件替换为 Moreh vLLM，即可在降低成本的同时改善用户体验。

图 1. 各种请求模式的 output tokens per second。越高越好。Moreh vLLM 平均性能提高 1.68 倍。

图 2. 各种请求模式的平均 time to first token。越低越好。Moreh vLLM 平均延迟降低 2.02 倍。

图 3. 各种请求模式的平均 time per output token。越低越好。Moreh vLLM 平均延迟降低 1.59 倍。

延迟与吞吐量之间的权衡

LLM 推理涉及延迟和吞吐量之间的固有权衡。增加 vLLM 实例的最大并发数可以提高吞吐量，但也会增加延迟；而减少并发数可以改善延迟，但会降低吞吐量。图 4 展示了原版 vLLM 和 Moreh vLLM 在各种请求模式（输入/输出序列长度）下的延迟-吞吐量权衡曲线。总体而言，图形越向左上方移动，性能特性越好。

图 4. 不同输入/输出序列长度下 time per output token（延迟）与 output tokens per second（吞吐量）之间的权衡曲线。

结论

Moreh vLLM 采用了多种技术来优化 Llama 3.3 70B 模型的推理，包括专有 GPU 库、模型级优化和 vLLM 引擎修改。因此，Moreh vLLM 在各种推理指标上相比原版开源 vLLM 实现了显著的性能提升。通过在 AMD MI300 系列 GPU 服务器上采用 Moreh vLLM，LLM 服务可以在降低成本的同时改善延迟。Moreh 还提供服务，在 AMD GPU 上优化客户的专有 AI 模型，并为其交付定制的 vLLM。

附录：原始数据

（请参阅 PDF 文件。）

Moreh vLLM 性能评估：Llama 3.3 70B 在 AMD Instinct MI300X GPU 上的表现

概述

AMD Instinct MI300X GPU

实验设置

Output TPS、TTFT 和 TPOT

延迟与吞吐量之间的权衡

结论

附录：原始数据