Telco LLM Inference Optimization on AMD MI300X: 1.38× Higher Serving Capacity

背景

韩国一家大型电信运营商计划使用其集团内关联公司开发的一个 7.8B 参数稠密 LLM 部署 LLM 驱动的服务。作为基础设施评估的一部分，他们希望将 AMD Instinct MI300X 与现有的 NVIDIA H100 GPU 在生产环境中的模型推理性能进行对比。

客户委托 Moreh 在 MI300X 上对该关联公司模型进行推理优化，并与 H100 进行正面基准测试对比。目标不仅是测量原始速度，还要回答一个具体的业务问题：在保持可接受的响应质量的前提下，单个 GPU 能同时服务多少并发用户？

对于部署面向客户的 AI 服务的电信运营商来说，这是一个常见问题，因为并发会话数直接决定了所需的 GPU 数量 — 进而决定了总体基础设施成本。

为什么选择这些指标

在深入分析结果之前，有必要解释为什么选择每个指标。客户正在设计一项面向订阅用户的 LLM 服务，因此每个指标都对应用户体验和运营成本的一个具体方面：

TTFT（Time To First Token）：用户在服务开始响应前的等待时间。在对话界面中，高 TTFT 会让人感觉迟缓，导致用户流失。这是“感知响应速度”指标。
TPOT（Time Per Output Token）：生成过程中连续 token 之间的间隔，决定了响应的流式传输速度。较低的 TPOT 产生自然、实时打字般的文本体验；较高的值则会导致明显的卡顿或延迟。
E2EL（End-to-End Latency）：从请求提交到最后一个 token 的总时间。这反映了用户等待完整响应的总时长。
Output TPS（Tokens Per Second）：聚合吞吐量 — 系统每秒生成多少个 token。更高的 TPS 意味着每个 GPU 在单位时间内完成更多工作。
最大并发数：单个 GPU 在保持 TTFT 和 TPOT 处于客户指定阈值（即服务级别目标 SLO）以内的情况下，能同时处理的最大请求数。这是运营上最重要的指标：它直接决定了客户为给定用户群需要采购多少个 GPU。

测试配置

所有测试均为单 GPU 对单 GPU 的对比：

MI300X 端：1× AMD Instinct MI300X（192 GB HBM3e），运行 Moreh vLLM
H100 端：1× NVIDIA H100 SXM（80 GB HBM3），运行 vLLM

工作负载使用了 ShareGPT 对话记录 — 来自类 ChatGPT 服务的真实对话日志 — 以模拟真实的对话交互。与使用固定输入/输出长度的合成基准测试不同，ShareGPT 记录反映了实际用户高度多变的请求模式：简短的后续问题、较长的初始提示、不同的响应长度等。这使得结果更能代表客户在生产环境中实际观察到的情况。

优化技术

在新的 GPU 平台上运行关联公司开发的模型并不是简单地更换硬件。该模型是在 NVIDIA GPU 上开发和测试的，AMD ROCm 上的默认开源 vLLM 还有很大的性能提升空间。Moreh 应用了两项关键优化来弥补这一差距，充分释放 MI300X 的全部潜力：

自定义 attention 后端：AMD ROCm 上存在多种 attention kernel 实现，但对于该模型架构，没有任何一种在所有场景下都能持续优于其他实现。Moreh 分别对 prefill 和 decode 阶段的每个候选 kernel 进行了性能分析，然后将每个阶段表现最佳的 kernel 整合为一个统一的自定义 attention 后端。仅此一项优化，相比基线 ROCm vLLM，输出吞吐量和 token 间延迟就提升了 17%。
形状感知调度的 GEMM 调优：模型的 BF16 矩阵乘法通过通用 GEMM 路径进行计算。Moreh 在多个 GEMM 后端之上构建了一个自定义调度层（包括 aiter.tgemm 和针对 decode 中典型小 batch 大小优化的专用 skinny-GEMM kernel），然后为模型中出现的每种 GEMM 形状调优了形状特定的调度表。这额外带来了 10% 的输出吞吐量提升和 3% 的 TTFT 改善。

综合来看，这些优化使得 MI300X 上的 Moreh vLLM 比同一 MI300X 硬件上的基线 ROCm vLLM 快了最多 27% — 这还是在与 H100 对比之前。以下结果反映的是这一完全优化后的配置。

单请求延迟

第一项测试在单请求（无并发负载）条件下测量基线性能。这隔离了每个平台的原始推理速度，排除了批处理效应：

Metric	Moreh vLLM (MI300X)	vLLM (H100)	Comparison
Output TPS (tok/s)	186.75	143.39	1.30× higher
TPOT (ms)	5.33	6.96	1.31× faster
End-to-End Latency (ms)	2,913	3,808	1.31× faster

Single request, ShareGPT workload, single GPU. TPOT = Time Per Output Token, E2EL = End-to-End Latency.

在单请求条件下，MI300X 上的 Moreh vLLM 实现了 1.30× 的输出吞吐量提升和全指标 1.31× 的延迟降低。从实际体验来看，用户将看到完整响应提前约 900 ms 到达（2.9 秒 vs. 3.8 秒）— 在对话界面中这是一个显著的改善。

这一优势源于 MI300X 更高的 HBM3e 内存带宽（5.3 TB/s vs. H100 的 3.35 TB/s），以及上述 Moreh vLLM 的 kernel 级优化。

符合 SLO 的最大服务容量

原始的单请求速度虽然有用，但生产部署决策取决于另一个问题：一个 GPU 能在保持可接受服务质量的同时为多少用户提供并发服务？

为了回答这个问题，测试逐步增加并发请求数，直到系统无法再满足客户指定的服务级别目标（SLO）：

TTFT < 1,000 ms
TPOT < 100 ms

这些阈值由客户根据其自身服务要求定义。在同时满足两项 SLO 的前提下的最大并发数，代表了单个 GPU 的有效服务容量。

Metric	Moreh vLLM (MI300X)	vLLM (H100)	Comparison
Max Concurrency (SLO-compliant)	880	636	1.38×

Customer-specified SLO thresholds: TTFT < 1,000 ms, TPOT < 100 ms. ShareGPT workload on a single GPU.

MI300X 上的 Moreh vLLM 实现了 1.38× 的 SLO 合规服务容量提升：每 GPU 880 个并发请求，而 H100 为 636 个。单个 MI300X 在保持 TTFT 和 TPOT 均在客户指定范围内的同时，能服务多 38% 的并发会话。

对于计划服务数百万订阅用户的电信运营商来说，这一差异在规模化时会产生复合效应。如果服务需要处理 10,000 个并发会话，则大约需要 12 个 MI300X GPU，而 H100 GPU 需要 16 个 — 仅从服务容量优势来看就减少了 25% 的 GPU 数量，这还不包括硬件成本差异。

模型精度验证

更换 GPU 平台和推理引擎可能会引入细微的数值差异，从而影响模型输出质量。为验证迁移至 MI300X 配合 Moreh vLLM 后不会损害模型能力，在两个平台上均测量了 MMLU（Massive Multitask Language Understanding, 5-shot）准确率：

Benchmark	Moreh vLLM (MI300X)	vLLM (H100)
MMLU (5-shot)	65.25	65.80

MMLU = Massive Multitask Language Understanding. The 0.55-point difference is within normal variance and does not indicate quality regression.

0.55 分的差异完全在 MMLU 评估的正常方差范围内，证实 Moreh vLLM 对 MI300X 的优化不会引入任何有意义的质量退化。客户可以放心地在 MI300X 上部署，响应质量将与其 H100 基线保持一致。

TCO 分析

将性能结果与硬件经济性相结合，可以清楚地展现总拥有成本（TCO）情况：

服务容量优势：每个 MI300X 服务的并发用户数是 H100 的 1.38 倍，减少了给定工作负载所需的 GPU 数量。
硬件成本优势：AMD Instinct MI300X 的采购成本低于 NVIDIA H100 SXM。

综合两项因素，我们的内部分析预计该推理工作负载在 MI300X + Moreh vLLM 平台上的成本效率可提高高达 70%。对于在全国范围内部署 AI 服务的电信运营商来说，这意味着显著的资本支出节省。

总结

此次与韩国一家大型电信运营商的合作表明，AMD Instinct MI300X 搭配 Moreh vLLM 是生产环境 LLM 推理中 NVIDIA H100 的有力替代方案。对于其关联公司开发的 7.8B 参数模型：

单请求吞吐量提升 1.30×，端到端延迟降低 1.31×
符合 SLO 的服务容量提升 1.38×（每 GPU 880 vs. 636 个并发会话）
模型精度一致（MMLU 65.25 vs. 65.80）
成本效率提高高达 70%（综合考虑性能和硬件成本优势）

该关联公司开发的 LLM 需要 Moreh 进行专门的优化工作 — 包括模型专属的 attention 后端和形状感知 GEMM 调优 — 才能在 AMD 硬件上高效运行。这展示了 Moreh 为 AMD GPU 优化模型的能力，使客户能够多元化其 GPU 供应链，降低对单一供应商的依赖。

Moreh 为 AMD GPU 上的模型提供自定义 vLLM 优化服务。如果您正在评估 AMD Instinct GPU 用于推理工作负载，请联系我们，讨论我们如何提供帮助。

电信运营商 LLM 推理优化：AMD MI300X 服务容量提升 1.38 倍

背景